La cantidad de información que manejamos en la actualidad es impresionante, así como los datos que contiene esa información. Este módulo tiene como finalidad, en primer lugar, explicar cómo se carga un archivo de hojas de cálculo (donde proviene la mayoría de la información, ya que en el diseño web se explicarán otros formatos) a Pandas, que es una librería de Python utilizada para analizar datos.
Desde Google Colab se puede cargar desde un archivo de la nube, o desde un archivo del computador, los códigos son los siguientes:
# Cargar desde el computador from google.colab import files uploaded = files.upload() data = pd.read_excel('archivo_datos.xlsx') # Cargar desde Google Drive from google.colab import drive drive.mount('/content/drive') # Ruta al archivo en Google Drive data = pd.read_excel('/content/drive/My Drive/ruta/al/archivo_datos.xlsx')
En este ejemplo, siguiendo las bibliotecas anteriormente usadas utilizaremos Pandas y Seaborn para analizar un archivo Excel y visualizar los resultados.
# Cargar las librerías import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # Cargar el archivo Excel data = pd.read_excel('archivo_datos.xlsx') # Mostrar las primeras filas print(data.head()) # Crear un gráfico de dispersión sns.scatterplot(x='columna_x', y='columna_y', data=data) plt.title('Gráfico de Dispersión') plt.savefig('grafico.png') # Guardar el gráfico como imagen plt.show()
Un DataFrame es una estructura de datos bidimensional que se utiliza para almacenar datos en forma de tabla (filas y columnas). Es una de las estructuras más importantes en Pandas, similar a una hoja de cálculo o una tabla en una base de datos. Cada columna puede tener un tipo de dato diferente, como enteros, flotantes o cadenas de texto.
Un DataFrame se puede crear de varias maneras, como a partir de un diccionario, una lista de listas, o leyendo archivos como .csv
o .xlsx
(Excel). Aquí te mostramos cómo se puede crear un DataFrame:
import pandas as pd
# Creación de un DataFrame a partir de un diccionario
data = {
'Nombre': ['Juan', 'Ana', 'Luis', 'Marta'],
'Edad': [23, 25, 22, 24],
'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}
df = pd.DataFrame(data)
print(df)
Una de las tareas más comunes al trabajar con DataFrames es filtrar datos. Se puede hacer fácilmente usando condiciones. Aquí te mostramos cómo filtrar filas en un DataFrame:
import pandas as pd
# Creación de un DataFrame de ejemplo
data = {
'Nombre': ['Juan', 'Ana', 'Luis', 'Marta'],
'Edad': [23, 25, 22, 24],
'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}
df = pd.DataFrame(data)
# Filtrar personas con edad mayor a 23 años
df_filtrado = df[df['Edad'] > 23]
print(df_filtrado)
En este caso, la condición df['Edad'] > 23
selecciona solo las filas donde la columna "Edad" es mayor a 23.
En Pandas, existen muchas funciones útiles para trabajar con DataFrames. Aquí te dejo algunas de las más importantes:
df.head()
df.tail()
df.info()
df.describe()
df.groupby('Ciudad').mean()
df.dropna()
df.fillna(0)
A continuación, se presenta un ejemplo completo donde cargamos un archivo Excel, filtramos los datos y realizamos un análisis simple:
import pandas as pd
# Cargar datos desde un archivo Excel
df = pd.read_excel('archivo_datos.xlsx')
# Mostrar las primeras filas del DataFrame
print("Primeras filas del DataFrame:")
print(df.head())
# Filtrar solo las personas mayores de 30 años
df_mayores_30 = df[df['Edad'] > 30]
print("\nPersonas mayores de 30 años:")
print(df_mayores_30)
# Calcular el promedio de la columna 'Edad'
promedio_edad = df['Edad'].mean()
print("\nPromedio de edad:")
print(promedio_edad)
En este ejemplo, cargamos un archivo Excel, mostramos las primeras filas, filtramos personas mayores de 30 años, y calculamos el promedio de edad.
Los DataFrames son una herramienta fundamental en Pandas para el análisis de datos. A través de funciones simples, como read_excel()
para cargar archivos y head()
, filter()
y groupby()
para explorar los datos, puedes realizar análisis complejos de manera eficiente.