Análisis de datos


La cantidad de información que manejamos en la actualidad es impresionante, así como los datos que contiene esa información. Este módulo tiene como finalidad, en primer lugar, explicar cómo se carga un archivo de hojas de cálculo (donde proviene la mayoría de la información, ya que en el diseño web se explicarán otros formatos) a Pandas, que es una librería de Python utilizada para analizar datos.


Imagen logo Python

Análisis de un archivo Excel


Carga de archivos


Desde Google Colab se puede cargar desde un archivo de la nube, o desde un archivo del computador, los códigos son los siguientes:

# Cargar desde el computador
from google.colab import files
uploaded = files.upload()

data = pd.read_excel('archivo_datos.xlsx')

# Cargar desde Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Ruta al archivo en Google Drive
data = pd.read_excel('/content/drive/My Drive/ruta/al/archivo_datos.xlsx')
    


Visualización de los datos

En este ejemplo, siguiendo las bibliotecas anteriormente usadas utilizaremos Pandas y Seaborn para analizar un archivo Excel y visualizar los resultados.

# Cargar las librerías
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar el archivo Excel
data = pd.read_excel('archivo_datos.xlsx')

# Mostrar las primeras filas
print(data.head())

# Crear un gráfico de dispersión
sns.scatterplot(x='columna_x', y='columna_y', data=data)
plt.title('Gráfico de Dispersión')
plt.savefig('grafico.png')  # Guardar el gráfico como imagen
plt.show()
    

¿Qué es un DataFrame en Pandas?

Un DataFrame es una estructura de datos bidimensional que se utiliza para almacenar datos en forma de tabla (filas y columnas). Es una de las estructuras más importantes en Pandas, similar a una hoja de cálculo o una tabla en una base de datos. Cada columna puede tener un tipo de dato diferente, como enteros, flotantes o cadenas de texto.

¿Cómo se crea un DataFrame?

Un DataFrame se puede crear de varias maneras, como a partir de un diccionario, una lista de listas, o leyendo archivos como .csv o .xlsx (Excel). Aquí te mostramos cómo se puede crear un DataFrame:


    import pandas as pd

    # Creación de un DataFrame a partir de un diccionario
    data = {
        'Nombre': ['Juan', 'Ana', 'Luis', 'Marta'],
        'Edad': [23, 25, 22, 24],
        'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
    }

    df = pd.DataFrame(data)
    print(df)
    

Filtrar Datos en un DataFrame

Una de las tareas más comunes al trabajar con DataFrames es filtrar datos. Se puede hacer fácilmente usando condiciones. Aquí te mostramos cómo filtrar filas en un DataFrame:


    import pandas as pd

    # Creación de un DataFrame de ejemplo
    data = {
        'Nombre': ['Juan', 'Ana', 'Luis', 'Marta'],
        'Edad': [23, 25, 22, 24],
        'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
    }
    df = pd.DataFrame(data)

    # Filtrar personas con edad mayor a 23 años
    df_filtrado = df[df['Edad'] > 23]
    print(df_filtrado)
    

En este caso, la condición df['Edad'] > 23 selecciona solo las filas donde la columna "Edad" es mayor a 23.

Funciones Comunes con DataFrames

En Pandas, existen muchas funciones útiles para trabajar con DataFrames. Aquí te dejo algunas de las más importantes:


Ejemplo Completo: Cargar, Filtrar y Analizar Datos

A continuación, se presenta un ejemplo completo donde cargamos un archivo Excel, filtramos los datos y realizamos un análisis simple:


    import pandas as pd

    # Cargar datos desde un archivo Excel
    df = pd.read_excel('archivo_datos.xlsx')

    # Mostrar las primeras filas del DataFrame
    print("Primeras filas del DataFrame:")
    print(df.head())

    # Filtrar solo las personas mayores de 30 años
    df_mayores_30 = df[df['Edad'] > 30]
    print("\nPersonas mayores de 30 años:")
    print(df_mayores_30)

    # Calcular el promedio de la columna 'Edad'
    promedio_edad = df['Edad'].mean()
    print("\nPromedio de edad:")
    print(promedio_edad)
    

En este ejemplo, cargamos un archivo Excel, mostramos las primeras filas, filtramos personas mayores de 30 años, y calculamos el promedio de edad.

Conclusión

Los DataFrames son una herramienta fundamental en Pandas para el análisis de datos. A través de funciones simples, como read_excel() para cargar archivos y head(), filter() y groupby() para explorar los datos, puedes realizar análisis complejos de manera eficiente.