Skip to content

Lamg222/Preparacion_Datos_Python

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Preparación de Datos - Maestría en Ciencia de Datos

Este repositorio contiene los notebooks y materiales del curso de Preparación de Datos de la Maestría en Ciencia de Datos.

Contenido

Notebooks de NumPy

  • 01. Arrays.ipynb: Introducción a los arrays de NumPy

    • Creación de arrays unidimensionales y multidimensionales
    • Tipos de datos en NumPy
    • Indexación y slicing básico
    • Arrays vs listas de Python
  • 02. Valores de un Array Numpy.ipynb: Manejo de valores en arrays

    • Acceso y modificación de elementos
    • Operaciones de broadcasting
    • Funciones de agregación (sum, mean, std, etc.)
    • Manejo de valores NaN
  • 03. Array Numpy para imágenes.ipynb: Procesamiento de imágenes con NumPy

    • Representación de imágenes como arrays
    • Manipulación de canales RGB
    • Transformaciones básicas de imágenes
    • Operaciones de filtrado
  • 04. Operaciones con Arrays Numpy.ipynb: Operaciones básicas y avanzadas

    • Operaciones aritméticas elemento a elemento
    • Álgebra lineal con NumPy
    • Funciones universales (ufuncs)
    • Reshape y concatenación de arrays

Notebooks de Pandas

  • 05. Pandas.ipynb: Introducción a Pandas

    • Series y DataFrames
    • Lectura de datos desde diferentes fuentes
    • Operaciones básicas de exploración de datos
    • Indexación y selección de datos
  • 06. Pandas y bases Seaborn.ipynb: Integración de Pandas con Seaborn

    • Preparación de datos para visualización
    • Datasets integrados de Seaborn
    • Transformación de datos para gráficos estadísticos
    • Análisis exploratorio de datos
  • 07. Pandas y modificación de Data Frames.ipynb: Manipulación de DataFrames

    • Añadir y eliminar columnas
    • Filtrado y consultas complejas
    • Aplicación de funciones (apply, map, applymap)
    • Merge, join y concatenación de DataFrames
  • 08. Tablas dinámicas con Pandas.ipynb: Creación de tablas dinámicas

    • Función pivot_table
    • Agregaciones múltiples
    • Análisis multidimensional
    • Crosstab y groupby avanzado

Visualización de Datos

  • 09. Matplotlib.ipynb: Visualización con Matplotlib

    • Gráficos básicos: líneas, barras, dispersión
    • Personalización de gráficos
    • Subplots y layouts complejos
    • Anotaciones y estilos
  • 10. Seaborn.ipynb: Visualización avanzada con Seaborn

    • Gráficos estadísticos especializados
    • Visualización de distribuciones
    • Gráficos categóricos y de relaciones
    • Mapas de calor y matrices de correlación

Guías de Estudio

  • Guía de estudio pt1.ipynb: Primera parte - Fundamentos

    • Conceptos fundamentales de preparación de datos
    • Limpieza y tratamiento de datos faltantes
    • Detección y manejo de outliers
    • Normalización y estandarización
    • Codificación de variables categóricas
    • Ejercicios prácticos con datasets reales
  • Guía de estudio pt2.ipynb: Segunda parte - Técnicas avanzadas

    • Feature engineering y selección de características
    • Reducción de dimensionalidad (PCA)
    • Manejo de datos desbalanceados
    • Validación de datos y quality checks
    • Pipeline de preparación de datos
    • Casos de estudio completos

Datasets

El repositorio incluye varios conjuntos de datos para prácticas:

  • DATASETS.xlsx: Colección de datasets en Excel
  • Iris.csv / iris.xlsx: Dataset clásico de clasificación (características de flores)
  • tips.csv / tips.xlsx: Dataset de propinas en restaurantes
  • titanic.xlsx: Dataset histórico del Titanic para análisis de supervivencia

Requisitos

  • Python 3.x
  • Jupyter Notebook
  • NumPy
  • Pandas
  • Matplotlib
  • Seaborn

Instalación

pip install numpy pandas matplotlib seaborn jupyter

Uso

  1. Clona este repositorio
  2. Navega a la carpeta del proyecto
  3. Ejecuta Jupyter Notebook:
    jupyter notebook
  4. Abre cualquier notebook para comenzar

Estructura del Proyecto

.
├── Notebooks principales (01-10)
├── Guías de estudio
└── Datasets (CSV y Excel)

About

Este repositorio contiene una serie de notebooks en Jupyter diseñados para aprender y practicar análisis de datos con Python, utilizando bibliotecas como NumPy, Pandas, Seaborn y Matplotlib.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors