Análisis de Datos con DataSet Ficticio y Python

0


 Análisis de Datos con DataSet Ficticio y Python


Vamos a crear un ejemplo sencillo de análisis de datos con Python utilizando datos ficticios y algunas visualizaciones. Para este ejemplo, utilizaremos la biblioteca pandas para manipulación de datos y matplotlib para las visualizaciones. Asegúrate de tener instaladas estas bibliotecas antes de ejecutar el código.

# Importar bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# Crear datos ficticios
np.random.seed(42)  # Para reproducibilidad
num_personas = 100
edades = np.random.randint(18, 65, num_personas)
salarios = np.random.randint(30000, 90000, num_personas)
puntuaciones = np.random.uniform(1, 10, num_personas)

# Crear un DataFrame con los datos
datos = pd.DataFrame({
    'Edad': edades,
    'Salario': salarios,
    'Puntuacion': puntuaciones
})

# Visualización 1: Histograma de Edades
plt.figure(figsize=(10, 6))
plt.hist(datos['Edad'], bins=20, color='skyblue', edgecolor='black')
plt.title('Distribución de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()

# Visualización 2: Scatter plot de Edad vs. Salario
plt.figure(figsize=(10, 6))
plt.scatter(datos['Edad'], datos['Salario'], color='coral', alpha=0.7)
plt.title('Relación entre Edad y Salario')
plt.xlabel('Edad')
plt.ylabel('Salario')
plt.show()

# Visualización 3: Boxplot de Puntuaciones
plt.figure(figsize=(8, 5))
plt.boxplot(datos['Puntuacion'], vert=False)
plt.title('Boxplot de Puntuaciones')
plt.xlabel('Puntuación')
plt.show()

# Análisis de estadísticas básicas
estadisticas_basicas = datos.describe()

# Imprimir estadísticas básicas
print(estadisticas_basicas)

Este ejemplo crea un conjunto de datos ficticios con información sobre la edad, salario y puntuación de 100 personas. Luego, se realiza un análisis exploratorio de datos mediante la creación de tres visualizaciones: un histograma de edades, un gráfico de dispersión de edad versus salario, y un boxplot de puntuaciones. Además, se calculan estadísticas básicas utilizando el método describe() de pandas.

Puedes ejecutar este código en un entorno de Python y explorar las visualizaciones y estadísticas generadas. Ten en cuenta que estos datos y visualizaciones son ficticios y están destinados únicamente con fines educativos.

Aquí está la interpretación de algunas de las estadísticas generadas:

1. Conteo (count):

  • Edad: 100
  • Salario: 100
  • Puntuación: 100

Esto indica que no hay valores faltantes en ninguno de los conjuntos de datos.

2. Media (mean):

  • Edad: La edad promedio es la suma de todas las edades dividida por el número de personas.
  • Salario: El salario promedio es la suma de todos los salarios dividida por el número de personas.
  • Puntuación: La puntuación promedio es la media de todas las puntuaciones.

3. Desviación estándar (std):

  • Edad: Mide la dispersión de las edades con respecto a la media.
  • Salario: Mide la dispersión de los salarios con respecto a la media.
  • Puntuación: Mide la dispersión de las puntuaciones con respecto a la media.

4. Mínimo (min) y Máximo (max):

  • Edad: La edad más joven y la más vieja en el conjunto de datos.
  • Salario: El salario más bajo y el más alto en el conjunto de datos.
  • Puntuación: La puntuación más baja y la más alta en el conjunto de datos.

5. Percentiles (25%, 50%, 75%):

  • Edad: Indica el valor por debajo del cual cae el 25%, 50% y 75% de las edades.
  • Salario: Indica el valor por debajo del cual cae el 25%, 50% y 75% de los salarios.
  • Puntuación: Indica el valor por debajo del cual cae el 25%, 50% y 75% de las puntuaciones.

Estas estadísticas proporcionan una visión general de la distribución y la variabilidad de los datos en cada columna del conjunto de datos. Por ejemplo, puedes observar la dispersión de las edades, salarios y puntuaciones, así como la presencia de valores atípicos en los gráficos y visualizaciones que generaste anteriormente.

A continuación se proporcionan las gráficas de distribuciones y tendencias centrales de los datos usando el código que te proporcioné anteriormente. 

1. Histograma de Edades:

  • Esta gráfica muestra la distribución de edades en el conjunto de datos.

plt.figure(figsize=(10, 6))
plt.hist(datos['Edad'], bins=20, color='skyblue', edgecolor='black')
plt.title('Distribución de Edades')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()


2. Gráfico de Dispersión de Edad vs. Salario:

  • Este gráfico muestra la relación entre la edad y el salario.

plt.figure(figsize=(10, 6))
plt.scatter(datos['Edad'], datos['Salario'], color='coral', alpha=0.7)
plt.title('Relación entre Edad y Salario')
plt.xlabel('Edad')
plt.ylabel('Salario')
plt.show()


3. Boxplot de Puntuaciones:

  • Este gráfico de caja muestra la distribución de las puntuaciones, incluyendo la mediana, los cuartiles y los posibles valores atípicos.

plt.figure(figsize=(8, 5))
plt.boxplot(datos['Puntuacion'], vert=False)
plt.title('Boxplot de Puntuaciones')
plt.xlabel('Puntuación')
plt.show()


Estas gráficas te ayudarán a visualizar la distribución de las edades, la relación entre la edad y el salario, así como la variabilidad en las puntuaciones. Además, el boxplot te ofrece información sobre la tendencia central (mediana) y la dispersión de las puntuaciones.

Sin comentarios