Estudio de Caso: Análisis de Datos Kaggle

0

 


Estudio de Caso: Análisis de Datos Kaggle

Enlace dataset Kaggle: https://www.kaggle.com/code/egonzalezco/data-set-football-teams/input

Enlace ChatGpt: https://chat.openai.com/share/87ff3056-85b1-451e-ba8b-71f510e62351

El siguiente ejemplo consiste en obtener un dataset de kaggle y posteriormente generar sus estadísticas con chatgpt considerando que los datos del dataset son de equipos de las 5 grandes ligas europeas.

A continuación proporcionamos la información sobre el conjunto de datos.

Aquí tienes una breve explicación de cada uno de los términos en el contexto del fútbol:

Team (Equipo):

Definición: Nombre o identificación del equipo que participa en el torneo o competición de fútbol.

Tournament (Torneo):

Definición: Nombre o tipo de competición en la que el equipo está participando. Puede ser una liga, copa, torneo internacional, etc.

Goals (Goles):

Definición: Cantidad de goles que un equipo ha marcado en un torneo o partido específico.

Shots pg (Tiros por partido):

Definición: Cantidad promedio de tiros (a la portería) que un equipo realiza por partido.

Yellow Cards (Tarjetas amarillas):

Definición: Cantidad de tarjetas amarillas que un equipo ha recibido en un torneo o partido. Las tarjetas amarillas son mostradas como una advertencia por conducta antideportiva.

Red Cards (Tarjetas rojas):

Definición: Cantidad de tarjetas rojas que un equipo ha recibido en un torneo o partido. Las tarjetas rojas son mostradas como una sanción más severa que expulsa a un jugador del campo de juego.

Possession% (Porcentaje de posesión):

Definición: Porcentaje del tiempo total del partido en el que un equipo ha tenido el control del balón. Representa la proporción del tiempo que el equipo ha pasado en posesión del balón.

Pass% (Porcentaje de pases acertados):

Definición: Porcentaje de pases que un equipo ha completado con éxito en un torneo o partido. Mide la precisión en la circulación del balón.

Aerials Won (Duelos aéreos ganados):

Definición: Cantidad de duelos aéreos que un equipo ha ganado. Los duelos aéreos suelen ocurrir durante los saques de banda, tiros de esquina y en otros eventos donde el balón está en el aire.

Rating (Calificación):

Definición: Puede referirse a una puntuación general o calificación asignada al rendimiento de un equipo en un partido o torneo. Esta calificación puede ser otorgada por expertos, entrenadores o calculada a partir de estadísticas específicas.

Te presento los nombres de las columnas del dataset : Team, Tournament, Goals, Shots pg , yellow_cards, red_cards, Possession%, Pass%, AerialsWon, Rating.

Donde Team es un string, Tournament es un string, Goals es un entero, Shots pg es flotante, yellow_cards es un entero, red_cards es un entero, Possession% es un flotante, Pass% es un flotante, AerialsWon es un flotante, Rating es un flotante, con los datos que te proporciono mejora el código para las estadísticas.

Lamentablemente, no puedo generar gráficos directamente aquí, pero puedo proporcionarte un código de ejemplo en Python utilizando bibliotecas populares como Pandas, Matplotlib y Seaborn. Asegúrate de tener estas bibliotecas instaladas antes de ejecutar el código. Puedes instalarlas usando el siguiente comando:

pip install pandas matplotlib seaborn

Gracias por proporcionar los nombres de las columnas. He ajustado el código para que coincida con los nombres reales de las columnas en tu conjunto de datos:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar el dataset
df = pd.read_csv('Football teams.csv')  # Reemplaza 'tu_archivo.csv' con el nombre real de tu archivo

# Filtrar datos por las 5 grandes ligas
big_five_leagues = ['Premier League', 'Ligue 1', 'La Liga', 'Bundesliga', 'Serie A']
df_big_five = df[df['Tournament'].isin(big_five_leagues)]

# Eficiencia en los Pases
sns.barplot(x='Tournament', y='Pass%', data=df_big_five)
plt.title('Precisión promedio en los pases (%) por temporada')
plt.show()

# Posesión de Balón
sns.barplot(x='Tournament', y='Possession%', data=df_big_five)
plt.title('Promedio de posesión de balón (%) en la temporada')
plt.show()

# Disciplina del Equipo
team_most_yellow_cards = df_big_five.loc[df_big_five.groupby('Tournament')['yellow_cards'].idxmax()]
team_most_red_cards = df_big_five.loc[df_big_five.groupby('Tournament')['red_cards'].idxmax()]

print("Equipo con más tarjetas amarillas por liga:")
print(team_most_yellow_cards[['Tournament', 'Team', 'yellow_cards']])

print("\nEquipo con más tarjetas rojas por liga:")
print(team_most_red_cards[['Tournament', 'Team', 'red_cards']])

# Duelos Aéreos
sns.barplot(x='Tournament', y='AerialsWon', data=df_big_five)
plt.title('Promedio de duelos aéreos ganados en la temporada')
plt.show()

# Distribución de Calificaciones
sns.histplot(x='Rating', hue='Tournament', multiple='stack', data=df_big_five, bins=20)
plt.title('Distribución de calificaciones de los equipos en cada liga')
plt.show()

# Comparación de Equipos (Gráfico de dispersión)
sns.scatterplot(x='Pass%', y='Possession%', hue='Tournament', data=df_big_five)
plt.title('Comparación de equipos: Pases vs. Posesión de balón')
plt.show()

Aquí está una explicación de las estadísticas y gráficos generados en el código:

Precisión promedio en los pases por temporada:

  • Gráfico de barras que compara la precisión promedio en los pases (%) para cada liga de las 5 grandes ligas del fútbol.


Promedio de posesión de balón por temporada:

  • Gráfico de barras que compara el promedio de posesión de balón (%) para cada liga de las 5 grandes ligas del fútbol.



Equipo con más tarjetas amarillas y rojas por temporada:

  • Muestra el equipo con la mayor cantidad de tarjetas amarillas y el equipo con la mayor cantidad de tarjetas rojas en cada liga de las 5 grandes ligas.



Promedio de duelos aéreos ganados por temporada:

  • Gráfico de barras que compara el promedio de duelos aéreos ganados para cada liga de las 5 grandes ligas del fútbol.



Distribución de calificaciones de los equipos por liga:

  • Histograma que muestra la distribución de las calificaciones de los equipos en cada liga de las 5 grandes ligas.



Comparación de equipos en términos de Pases y Posesión de balón:

  • Gráfico de dispersión que compara diferentes métricas entre equipos, específicamente, la precisión en los pases y la posesión de balón. Cada punto en el gráfico representa un equipo y está coloreado por la liga a la que pertenece.



Estos gráficos y estadísticas te permiten visualizar y comparar diversas métricas clave entre equipos y ligas en la temporada 2020-2021 de las 5 grandes ligas del fútbol.

 

Sin comentarios