# importar librerías
import pandas as pd 
import numpy as np
from matplotlib import pyplot as plt

# leer conjuntos de datos en los DataFrames
orders = pd.read_csv('instacart_orders.csv',header=0,sep= ';',keep_default_na=True) 
products = pd.read_csv('products.csv',header=0,sep= ';',keep_default_na=True) 
order_products = pd.read_csv('order_products.csv',header=0,sep= ';',keep_default_na=True)
aisles = pd.read_csv('aisles.csv',header=0,sep= ';',keep_default_na=True)
departments = pd.read_csv('departments.csv',header=0,sep= ';',keep_default_na=True)

# mostrar información del DataFrame
orders.info()
orders.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 478967 entries, 0 to 478966
Data columns (total 6 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   order_id                478967 non-null  int64  
 1   user_id                 478967 non-null  int64  
 2   order_number            478967 non-null  int64  
 3   order_dow               478967 non-null  int64  
 4   order_hour_of_day       478967 non-null  int64  
 5   days_since_prior_order  450148 non-null  float64
dtypes: float64(1), int64(5)
memory usage: 21.9 MB

# mostrar información del DataFrame
products.info()
products.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 49694 entries, 0 to 49693
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   product_id     49694 non-null  int64 
 1   product_name   48436 non-null  object
 2   aisle_id       49694 non-null  int64 
 3   department_id  49694 non-null  int64 
dtypes: int64(3), object(1)
memory usage: 1.5+ MB

# mostrar información del DataFrame
order_products.info()
order_products.head()
order_products.isna().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4545007 entries, 0 to 4545006
Data columns (total 4 columns):
 #   Column             Dtype  
---  ------             -----  
 0   order_id           int64  
 1   product_id         int64  
 2   add_to_cart_order  float64
 3   reordered          int64  
dtypes: float64(1), int64(3)
memory usage: 138.7 MB

order_id               0
product_id             0
add_to_cart_order    836
reordered              0
dtype: int64

# mostrar información del DataFrame
aisles.info()
aisles.head()
aisles.isna().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 134 entries, 0 to 133
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   aisle_id  134 non-null    int64 
 1   aisle     134 non-null    object
dtypes: int64(1), object(1)
memory usage: 2.2+ KB

aisle_id    0
aisle       0
dtype: int64

# mostrar información del DataFrame
departments.info()
departments.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   department_id  21 non-null     int64 
 1   department     21 non-null     object
dtypes: int64(1), object(1)
memory usage: 468.0+ bytes

# Revisa si hay pedidos duplicados
print('El numero de order_id duplicados es:',orders['order_id'].duplicated().sum())
print('El numero de duplicados de fila es:',orders.duplicated().sum())

El numero de order_id duplicados es: 15
El numero de duplicados de fila es: 15

# Basándote en tus hallazgos,
# Verifica todos los pedidos que se hicieron el miércoles a las 2:00 a.m.
orders_filtered = orders.query("order_dow == 3 and order_hour_of_day == 2")
orders_per = round((len(orders_filtered)/len(orders))*100,3)
print(len(orders_filtered))
print(orders_filtered[['order_number','days_since_prior_order']])
print(f'el porcentaje de pedidos el miércoles a las 2:00 a.m. es: {orders_per}%')

121
        order_number  days_since_prior_order
4838              41                    16.0
5156              18                    11.0
15506             13                     7.0
18420             19                    11.0
24691              2                     9.0
...              ...                     ...
457013             6                    30.0
458816            18                     4.0
459635             6                    21.0
468324            59                     3.0
477526            38                     3.0

[121 rows x 2 columns]
el porcentaje de pedidos el miércoles a las 2:00 a.m. es: 0.025%

# Elimina los pedidos duplicados
orders = orders.drop_duplicates()

# Vuelve a verificar si hay filas duplicadas
print('El nuevo numero de filas identicas es:',orders.duplicated().sum())

El nuevo numero de filas identicas es: 0

# Vuelve a verificar únicamente si hay IDs duplicados de pedidos
print('El nuevo numero de order_id duplicados es:',orders['order_id'].duplicated().sum())

El nuevo numero de order_id duplicados es: 0

# Verifica si hay filas totalmente duplicadas
products.duplicated().sum()

np.int64(0)

# Revisa únicamente si hay ID de productos duplicados
products['product_id'].duplicated().sum()

np.int64(0)

# Revisa únicamente si hay nombres duplicados de productos (convierte los nombres a letras mayúsculas para compararlos mejor)
products['product_name'].str.strip().str.upper().duplicated().sum()

np.int64(1361)

# Revisa si hay nombres duplicados de productos no faltantes
products['product_name'].str.strip().str.upper().dropna().duplicated().sum()

# Para ver algunos ejemplos de duplicados y tratar de entender su naturaleza
productos_normalizados = products['product_name'].str.strip().str.upper().dropna()
duplicados_ejemplos = productos_normalizados[productos_normalizados.duplicated(keep=False)]
print(f"Total duplicados: {len(duplicados_ejemplos)}")
print("Algunos ejemplos:")
print(duplicados_ejemplos.value_counts().head())

Total duplicados: 207
Algunos ejemplos:
product_name
GREEN TEA WITH GINSENG AND HONEY                                        3
BIOTIN 1000 MCG                                                         2
PROACTIVE HEALTH INDOOR WEIGHT & HAIRBALL CARE WITH CHICKEN CAT FOOD    2
ORIGINAL CHILI CON CARNE WITH BEANS                                     2
CHILI WITH BEANS                                                        2
Name: count, dtype: int64

# Revisa si hay filas totalmente duplicadas
departments.duplicated().sum()

np.int64(0)

# Revisa únicamente si hay IDs duplicadas de departamentos
departments['department_id'].duplicated().sum()

np.int64(0)

# Revisa si hay filas totalmente duplicadas
aisles.duplicated().sum()

np.int64(0)

# Revisa únicamente si hay IDs duplicadas de pasillos
aisles['aisle_id'].duplicated().sum()

np.int64(0)

# Revisa si hay filas totalmente duplicadas
order_products.duplicated().sum()

np.int64(0)

# Vuelve a verificar si hay cualquier otro duplicado engañoso
order_products[["order_id", "product_id"]].duplicated().sum()

np.int64(0)

# Encuentra los valores ausentes en la columna 'product_name'
print('el numero de nombres de producto faltantes es: ',products['product_name'].isna().sum())
missing_product_name = products[products['product_name'].isna()]
print(missing_product_name.head())

el numero de nombres de producto faltantes es:  1258
     product_id product_name  aisle_id  department_id
37           38          NaN       100             21
71           72          NaN       100             21
109         110          NaN       100             21
296         297          NaN       100             21
416         417          NaN       100             21

#  ¿Todos los nombres de productos ausentes están relacionados con el pasillo con ID 100?
missing_products = products[products['product_name'].isna()]
missing_100 = missing_products[missing_products['aisle_id']==100]

# ¿Cuántos productos tienen nombres NaN en total?
total_missing = len(missing_products)

# ¿Cuántos de esos están en el pasillo 100?
missing_in_100 = len(missing_100)

print(f"Total productos con nombres NaN: {total_missing}")
print(f"De esos, en pasillo 100: {missing_in_100}")

Total productos con nombres NaN: 1258
De esos, en pasillo 100: 1258

# ¿Todos los nombres de productos ausentes están relacionados con el departamento con ID 21?
missing_dep_21 = missing_products[missing_products['department_id']==21]

print(f"Total productos con nombres NaN: {len(missing_products)}")
print(f"De esos, en departamento 21: {len(missing_dep_21)}")

Total productos con nombres NaN: 1258
De esos, en departamento 21: 1258

# Usa las tablas department y aisle para revisar los datos del pasillo con ID 100 y el departamento con ID 21.
aisle_100 = aisles.loc[aisles["aisle_id"] == 100]
dept_21 = departments.loc[departments["department_id"] == 21]

print("Nombre del pasillo 100:", aisle_100['aisle'].values[0])
print("Nombre del departamento 21:", dept_21['department'].values[0])

Nombre del pasillo 100: missing
Nombre del departamento 21: missing

# Completa los nombres de productos ausentes con 'Unknown'
products['product_name'] = products['product_name'].fillna('Unknown')
products['product_name'].isna().sum()

np.int64(0)

# Encuentra los valores ausentes
orders.isna().sum()

order_id                      0
user_id                       0
order_number                  0
order_dow                     0
order_hour_of_day             0
days_since_prior_order    28817
dtype: int64

# ¿Hay algún valor ausente que no sea el primer pedido del cliente?
len(orders[(orders['order_number'] > 1) & (orders['days_since_prior_order'].isna())])

0

# Encuentra los valores ausentes
order_products.isna().sum()

order_id               0
product_id             0
add_to_cart_order    836
reordered              0
dtype: int64

# ¿Cuáles son los valores mínimos y máximos en esta columna?
print('el minimo en order_products es: ',order_products['add_to_cart_order'].min())
print('el maximo en order_products es: ',order_products['add_to_cart_order'].max())

el minimo en order_products es:  1.0
el maximo en order_products es:  64.0

# Guarda todas las IDs de pedidos que tengan un valor ausente en 'add_to_cart_order'
missing_order = order_products[order_products['add_to_cart_order'].isna()]
order_id_missing_order = missing_order['order_id']
order_id_missing_order.head()

737      2449164
9926     1968313
14394    2926893
16418    1717990
30114    1959075
Name: order_id, dtype: int64

# ¿Todos los pedidos con valores ausentes tienen más de 64 productos?
products_per_order = order_products.groupby('order_id').size()
orders_with_missing = order_products[order_products['add_to_cart_order'].isna()]['order_id'].unique()
orders_in_missing = products_per_order[products_per_order.index.isin(orders_with_missing)]

min_count = int(orders_in_missing.min())

print(f"Pedidos con ausentes: {len(orders_in_missing)}")
print(f"Mínimo número de product_id en esos pedidos: {min_count}")

Pedidos con ausentes: 70
Mínimo número de product_id en esos pedidos: 65

# Remplaza los valores ausentes en la columna 'add_to_cart? con 999 y convierte la columna al tipo entero.
order_products['add_to_cart_order'] = order_products['add_to_cart_order'].fillna(999).astype("int64")
print(order_products.isna().sum())
order_products.dtypes

order_id             0
product_id           0
add_to_cart_order    0
reordered            0
dtype: int64

order_id             int64
product_id           int64
add_to_cart_order    int64
reordered            int64
dtype: object

hour_min = orders['order_hour_of_day'].min()
hour_max = orders['order_hour_of_day'].max()

print (f"los valores de order_hour_of_day oscilan entre las {hour_min} y las {hour_max}hrs")

los valores de order_hour_of_day oscilan entre las 0 y las 23hrs

dow_min = orders['order_dow'].min()
dow_max = orders['order_dow'].max()

print (f"los valores de order_dow oscilan entre {dow_min} y {dow_max}")

los valores de order_dow oscilan entre 0 y 6

users_per_hour = (
    orders.groupby("order_hour_of_day")["user_id"]
    .nunique()
    .reset_index(name="unique_users")
    .sort_values("order_hour_of_day")
)
users_per_hour.plot(x='order_hour_of_day', 
                    y ='unique_users' , 
                    kind = 'bar', 
                    title = 'Users Per Hour',
                    xlabel = 'Hour', 
                    ylabel = 'Users',
                    legend = False);

plt.show()

users_per_dow = (
    orders.groupby("order_dow")["user_id"]
    .nunique()
    .reset_index(name="unique_users")
    .sort_values("order_dow")
)
users_per_dow.plot(x='order_dow', 
                    y ='unique_users' , 
                    kind = 'bar', 
                    title = 'Users Per Day of Week',
                    xlabel = 'Day of Week', 
                    ylabel = 'Users',
                    legend = False);

plt.show()

days_since_order = (
    orders.groupby('days_since_prior_order')["order_id"]
    .nunique()
    .reset_index(name="unique_users")
    .sort_values('days_since_prior_order')
)
days_since_order.plot(x='days_since_prior_order', 
                    y ='unique_users' , 
                    kind = 'bar', 
                    title = 'Days Since Prior Order',
                    xlabel = 'Days', 
                    ylabel = 'Orders',
                    legend = False);

plt.show()

# Filtrado de datos para Miercoles
orders_wed = orders[orders['order_dow'] == 3]
hours_wed = orders_wed['order_hour_of_day']
wed_count = hours_wed.value_counts().sort_index()

# Filtrado de datos para Sabado
orders_sat = orders[orders['order_dow'] == 6]
hours_sat = orders_sat['order_hour_of_day']
sat_count = hours_sat.value_counts().sort_index()

counts = pd.DataFrame({
    "Wednesday": wed_count,
    "Saturday": sat_count
})

# Barras agrupadas
graph = counts.plot(
    kind="bar",
    figsize=(10, 5),
    title="Orders per hour: Wednesday vs Saturday",
    xlabel="Hour of the day (0–23)",
    ylabel="Orders",
    legend=True
)

plt.show()

clients = orders.groupby('user_id')['order_id'].count()
clients_orders = clients.value_counts().sort_index()

clients_orders.plot(kind = 'bar', 
                    title = 'Clients by Number of Orders',
                    xlabel = 'Number of orders', 
                    ylabel = 'Clients',
                    legend = False);

plt.show()

order_products_count = order_products.groupby('product_id').size()
products_orders = order_products_count.sort_values(ascending=False)
top_20_products = products_orders.head(20)
top_20_df = top_20_products.reset_index()
top_20_df.columns = ['product_id', 'order_count']
top_20_with_names = top_20_df.merge(products[['product_id', 'product_name']], 
                                   on='product_id', 
                                   how='left')

plt.figure(figsize=(12, 8))
plt.barh(range(len(top_20_with_names)), top_20_with_names['order_count'])
plt.yticks(range(len(top_20_with_names)), top_20_with_names['product_id'].astype(str) + ': ' + top_20_with_names['product_name'])
plt.xlabel('Frecuencia de pedidos')
plt.ylabel('ID y Nombre del producto')
plt.title('Top 20 productos más pedidos')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

orders_by_client = order_products.groupby('order_id').size()
orders_stats = orders_by_client.agg(['mean', 'min', 'max'])
prod_mean_order = orders_by_client.mean().round(2)
print(f'Los clientes piden en promedio {prod_mean_order} productos en cada pedido.')

Los clientes piden en promedio 10.1 productos en cada pedido.

orders_by_client.hist(bins=30, figsize=(10, 6))
plt.title('Distribución del número de artículos por pedido')
plt.xlabel('Número de artículos por pedido')
plt.ylabel('Frecuencia')
plt.show()

products_reordered = order_products[order_products['reordered'] == 1]

products_reordered_id = products_reordered['product_id'].value_counts()

top_20_products_reordered_df = (
    products_reordered_id.head(20)
    .rename_axis('product_id')           # el índice pasa a columna
    .reset_index(name='reorder_count')   # valores -> 'reorder_count'
)

top_20_products_reordered_with_names = top_20_products_reordered_df.merge(
    products[['product_id', 'product_name']],
    on='product_id',
    how='left'
)

plt.figure(figsize=(12, 8))
plt.barh(range(len(top_20_products_reordered_with_names)), top_20_products_reordered_with_names['reorder_count'])
plt.yticks(range(len(top_20_products_reordered_with_names)), top_20_products_reordered_with_names['product_id'].astype(str) + ': ' + top_20_products_reordered_with_names['product_name'])
plt.xlabel('Frecuencia de Reordenado')
plt.ylabel('ID y Nombre del producto')
plt.title('Top 20 Productos más Reordenados')
plt.gca().invert_yaxis()
plt.tight_layout()
plt.show()

print(top_20_products_reordered_with_names[['product_id', 'product_name', 'reorder_count']])

    product_id              product_name  reorder_count
0        24852                    Banana          55763
1        13176    Bag of Organic Bananas          44450
2        21137      Organic Strawberries          28639
3        21903      Organic Baby Spinach          26233
4        47209      Organic Hass Avocado          23629
5        47766           Organic Avocado          18743
6        27845        Organic Whole Milk          16251
7        47626               Large Lemon          15044
8        27966       Organic Raspberries          14748
9        16797              Strawberries          13945
10       26209                     Limes          13327
11       22935      Organic Yellow Onion          11145
12       24964            Organic Garlic          10411
13       45007          Organic Zucchini          10076
14       49683            Cucumber Kirby           9538
15       28204        Organic Fuji Apple           8989
16        8277  Apple Honeycrisp Organic           8836
17       39275       Organic Blueberries           8799
18        5876             Organic Lemon           8412
19       49235       Organic Half & Half           8389

reorders = order_products[order_products['reordered'] == 1].groupby('product_id').size()
total_compras = order_products.groupby('product_id').size()
reorder_prop = reorders.div(total_compras, fill_value=0)

reorder_df = reorder_prop.reset_index()
reorder_df.columns = ['product_id', 'reorder_proportion']

result = products.merge(reorder_df, on='product_id', how='inner')
result.head()

top_20 = result.head(20)

plt.figure(figsize=(15, 8))
plt.bar(range(len(top_20)), top_20['reorder_proportion'])
plt.xlabel('Productos')
plt.ylabel('Proporción de Reorden')
plt.title('Proporción de Reorden - Primeros 20 Productos')

labels = top_20['product_id'].astype(str) + ' - ' + top_20['product_name']
plt.xticks(range(len(top_20)), labels, rotation=45, ha='right')

plt.tight_layout()
plt.show()

merged = orders.merge(order_products, on="order_id", how="left", validate="one_to_many", indicator=True)
merged_clean = merged[merged['_merge'] == 'both']
merged_clean_reordered = merged_clean[merged_clean['reordered']==1]
total_reorders_per_client = merged_clean.groupby('user_id')['reordered'].sum()
total_orders_per_client = merged_clean.groupby('user_id')['product_id'].count()
client_reorder_prop = total_reorders_per_client/total_orders_per_client
client_reorder_prop.head()

user_id
2    0.038462
4    0.000000
5    0.666667
6    0.000000
7    0.928571
dtype: float64

plt.figure(figsize=(9, 4.5))
client_reorder_prop.plot(kind="hist", bins=20)
plt.title("Distribución de la proporción de recompra por cliente")
plt.xlabel("Proporción de recompra (0–1)")
plt.ylabel("Número de clientes")
plt.tight_layout()
plt.show()

first_items = order_products.loc[order_products["add_to_cart_order"] == 1]

first_counts = (first_items
                .groupby("product_id")
                .size()
                .sort_values(ascending=False)
                .head(20)
                .rename("first_added_count")
                .reset_index())

top20_first = first_counts.merge(
    products[["product_id", "product_name"]],
    on="product_id",
    how="left"
)

top20_first = top20_first.sort_values("first_added_count", ascending=False)

plt.figure(figsize=(12, 7))
plt.barh(range(len(top20_first)), top20_first["first_added_count"])

ylabels = (top20_first["product_id"].astype(str) + ": " + top20_first["product_name"])
plt.yticks(range(len(top20_first)), ylabels)

plt.gca().invert_yaxis()
plt.xlabel("Veces como primer artículo")
plt.ylabel("ID: Nombre del producto")
plt.title("Top 20 productos — primer artículo añadido al carrito")

plt.tight_layout()
plt.show()

	department_id	department
0	1	frozen
1	2	other
2	3	bakery
3	4	produce
4	5	alcohol

Plan de solución¶

Conclusiones¶

Paso 2. Preprocesamiento de los datos¶

Plan de solución¶

Encuentra y elimina los valores duplicados (y describe cómo tomaste tus decisiones).¶

`orders` data frame¶

`products` data frame¶

`departments` data frame¶

`aisles` data frame¶

`order_products` data frame¶

Encuentra y elimina los valores ausentes¶

`products` data frame¶

`orders` data frame¶

`order_products` data frame¶

Conclusiones¶

Paso 3. Análisis de los datos¶

[A] Fácil (deben completarse todos para aprobar)¶

[A1] Verifica que los valores sean sensibles¶

[A2] Para cada hora del día, ¿cuántas personas hacen órdenes?¶

[A3] ¿Qué día de la semana compran víveres las personas?¶

[A4] ¿Cuánto tiempo esperan las personas hasta hacer otro pedido? Comenta sobre los valores mínimos y máximos.¶

[B] Intermedio (deben completarse todos para aprobar)¶

[B1] Diferencia entre miércoles y sábados para `'order_hour_of_day'`. Traza gráficos de barra para los dos días y describe las diferencias que veas.¶

[B2] ¿Cuál es la distribución para el número de pedidos por cliente?¶

[B3] ¿Cuáles son los 20 productos más populares (muestra su ID y nombre)?¶

[C] Difícil (deben completarse todos para aprobar)¶

[C1] ¿Cuántos artículos compran normalmente las personas en un pedido? ¿Cómo es la distribución?¶

[C2] ¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia (muestra sus nombres e IDs de los productos)?¶

[C3] Para cada producto, ¿cuál es la proporción de las veces que se pide y que se vuelve a pedir?¶

[C4] Para cada cliente, ¿qué proporción de sus productos ya los había pedido?¶

[C5] ¿Cuáles son los 20 principales artículos que las personas ponen primero en sus carritos?¶

Conclusion general del proyecto:¶

	order_id	user_id	order_number	order_dow	order_hour_of_day	days_since_prior_order
0	1515936	183418	11	6	13	30.0
1	1690866	163593	5	5	12	9.0
2	1454967	39980	4	5	19	2.0
3	1768857	82516	56	0	20	10.0
4	3007858	196724	2	4	12	17.0

	product_id	product_name	aisle_id	department_id
0	1	Chocolate Sandwich Cookies	61	19
1	2	All-Seasons Salt	104	13
2	3	Robust Golden Unsweetened Oolong Tea	94	7
3	4	Smart Ones Classic Favorites Mini Rigatoni Wit...	38	1
4	5	Green Chile Anytime Sauce	5	13

	product_id	product_name	aisle_id	department_id	reorder_proportion
0	1	Chocolate Sandwich Cookies	61	19	0.564286
1	2	All-Seasons Salt	104	13	0.000000
2	3	Robust Golden Unsweetened Oolong Tea	94	7	0.738095
3	4	Smart Ones Classic Favorites Mini Rigatoni Wit...	38	1	0.510204
4	7	Pure Coconut Water With Orange	98	7	0.500000

Plan de solución¶

Conclusiones¶

Paso 2. Preprocesamiento de los datos¶

Plan de solución¶

Encuentra y elimina los valores duplicados (y describe cómo tomaste tus decisiones).¶

orders data frame¶

products data frame¶

departments data frame¶

aisles data frame¶

order_products data frame¶

Encuentra y elimina los valores ausentes¶

products data frame¶

orders data frame¶

order_products data frame¶

Conclusiones¶

Paso 3. Análisis de los datos¶

[A] Fácil (deben completarse todos para aprobar)¶

[A1] Verifica que los valores sean sensibles¶

[A2] Para cada hora del día, ¿cuántas personas hacen órdenes?¶

[A3] ¿Qué día de la semana compran víveres las personas?¶

[A4] ¿Cuánto tiempo esperan las personas hasta hacer otro pedido? Comenta sobre los valores mínimos y máximos.¶

[B] Intermedio (deben completarse todos para aprobar)¶

[B1] Diferencia entre miércoles y sábados para 'order_hour_of_day'. Traza gráficos de barra para los dos días y describe las diferencias que veas.¶

[B2] ¿Cuál es la distribución para el número de pedidos por cliente?¶

[B3] ¿Cuáles son los 20 productos más populares (muestra su ID y nombre)?¶

[C] Difícil (deben completarse todos para aprobar)¶

[C1] ¿Cuántos artículos compran normalmente las personas en un pedido? ¿Cómo es la distribución?¶

[C2] ¿Cuáles son los 20 principales artículos que vuelven a pedirse con mayor frecuencia (muestra sus nombres e IDs de los productos)?¶

[C3] Para cada producto, ¿cuál es la proporción de las veces que se pide y que se vuelve a pedir?¶

[C4] Para cada cliente, ¿qué proporción de sus productos ya los había pedido?¶

[C5] ¿Cuáles son los 20 principales artículos que las personas ponen primero en sus carritos?¶

Conclusion general del proyecto:¶

`orders` data frame¶

`products` data frame¶

`departments` data frame¶

`aisles` data frame¶

`order_products` data frame¶

`products` data frame¶

`orders` data frame¶

`order_products` data frame¶

[B1] Diferencia entre miércoles y sábados para `'order_hour_of_day'`. Traza gráficos de barra para los dos días y describe las diferencias que veas.¶