Este repositorio contiene los notebooks y materiales del curso de Preparación de Datos de la Maestría en Ciencia de Datos.
-
01. Arrays.ipynb: Introducción a los arrays de NumPy
- Creación de arrays unidimensionales y multidimensionales
- Tipos de datos en NumPy
- Indexación y slicing básico
- Arrays vs listas de Python
-
02. Valores de un Array Numpy.ipynb: Manejo de valores en arrays
- Acceso y modificación de elementos
- Operaciones de broadcasting
- Funciones de agregación (sum, mean, std, etc.)
- Manejo de valores NaN
-
03. Array Numpy para imágenes.ipynb: Procesamiento de imágenes con NumPy
- Representación de imágenes como arrays
- Manipulación de canales RGB
- Transformaciones básicas de imágenes
- Operaciones de filtrado
-
04. Operaciones con Arrays Numpy.ipynb: Operaciones básicas y avanzadas
- Operaciones aritméticas elemento a elemento
- Álgebra lineal con NumPy
- Funciones universales (ufuncs)
- Reshape y concatenación de arrays
-
05. Pandas.ipynb: Introducción a Pandas
- Series y DataFrames
- Lectura de datos desde diferentes fuentes
- Operaciones básicas de exploración de datos
- Indexación y selección de datos
-
06. Pandas y bases Seaborn.ipynb: Integración de Pandas con Seaborn
- Preparación de datos para visualización
- Datasets integrados de Seaborn
- Transformación de datos para gráficos estadísticos
- Análisis exploratorio de datos
-
07. Pandas y modificación de Data Frames.ipynb: Manipulación de DataFrames
- Añadir y eliminar columnas
- Filtrado y consultas complejas
- Aplicación de funciones (apply, map, applymap)
- Merge, join y concatenación de DataFrames
-
08. Tablas dinámicas con Pandas.ipynb: Creación de tablas dinámicas
- Función pivot_table
- Agregaciones múltiples
- Análisis multidimensional
- Crosstab y groupby avanzado
-
09. Matplotlib.ipynb: Visualización con Matplotlib
- Gráficos básicos: líneas, barras, dispersión
- Personalización de gráficos
- Subplots y layouts complejos
- Anotaciones y estilos
-
10. Seaborn.ipynb: Visualización avanzada con Seaborn
- Gráficos estadísticos especializados
- Visualización de distribuciones
- Gráficos categóricos y de relaciones
- Mapas de calor y matrices de correlación
-
Guía de estudio pt1.ipynb: Primera parte - Fundamentos
- Conceptos fundamentales de preparación de datos
- Limpieza y tratamiento de datos faltantes
- Detección y manejo de outliers
- Normalización y estandarización
- Codificación de variables categóricas
- Ejercicios prácticos con datasets reales
-
Guía de estudio pt2.ipynb: Segunda parte - Técnicas avanzadas
- Feature engineering y selección de características
- Reducción de dimensionalidad (PCA)
- Manejo de datos desbalanceados
- Validación de datos y quality checks
- Pipeline de preparación de datos
- Casos de estudio completos
El repositorio incluye varios conjuntos de datos para prácticas:
DATASETS.xlsx: Colección de datasets en ExcelIris.csv/iris.xlsx: Dataset clásico de clasificación (características de flores)tips.csv/tips.xlsx: Dataset de propinas en restaurantestitanic.xlsx: Dataset histórico del Titanic para análisis de supervivencia
- Python 3.x
- Jupyter Notebook
- NumPy
- Pandas
- Matplotlib
- Seaborn
pip install numpy pandas matplotlib seaborn jupyter- Clona este repositorio
- Navega a la carpeta del proyecto
- Ejecuta Jupyter Notebook:
jupyter notebook
- Abre cualquier notebook para comenzar
.
├── Notebooks principales (01-10)
├── Guías de estudio
└── Datasets (CSV y Excel)