Inmersión profunda en IA

Inmersión profunda en ingeniería de IA desde cero: el plan de estudios de código abierto para construir sistemas de IA manualmente

AI Engineering From Scratch es un plan de estudios y manual de referencia con licencia MIT para construir sistemas de IA desde cero, comenzando con los fundamentos de matemáticas y ML, y avanzando a través de deep learning, transformers, LLMs, herramientas, agentes, MCP, infraestructura, seguridad y proyectos finales.

Actualizado en junio de 2026
Héroe de la guía de ingeniería de IA desde cero que muestra las fases del plan de estudios por capas, desde matemáticas hasta LLMs, agentes, infraestructura de producción, prompts, habilidades y servidores MCP.

Este repositorio no es un framework ni un tutorial de fin de semana. Es un sistema de aprendizaje estructurado: carpetas de lecciones, código ejecutable, documentación, cuestionarios, datos de sitios web generados, habilidades de agentes, prompts, scripts y reglas de contribución para personas que desean comprender la pila tecnológica debajo de la llamada a la API.

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

Nota editorial

Este artículo utiliza el repositorio de GitHub, README, hoja de ruta, requisitos, scripts, archivos de construcción del sitio, issues, PRs, sitio web, Reddit, búsqueda en X y artículos de terceros recopilados el 2 de junio de 2026. El README y el sitio web pueden mostrar diferentes conteos de lecciones, por lo que el artículo se centra en la estructura en lugar de conteos volátiles.

1. ai-engineering-from-scratch en una frase

AI Engineering From Scratch es un repositorio de plan de estudios de IA de código abierto donde cada lección tiene como objetivo enseñar el concepto, implementarlo desde cero, compararlo con bibliotecas de producción y enviar un artefacto reutilizable como un prompt, habilidad, agente o servidor MCP.

ÁreaDetallePor qué importa
Repositoriorohitg00/ai-engineering-from-scratchhttps://github.com/rohitg00/ai-engineering-from-scratch
Lenguaje principalPythonLenguaje principal de GitHub en el momento de la investigación.
LicenciaMITRevisa por separado las licencias empaquetadas o binarias cuando corresponda.
Creado18 de marzo de 2026No se encontraron lanzamientos de GitHub durante la investigación; la rama principal y el sitio web se actualizan activamente.

2. Por qué importa

El repositorio es importante porque muchos desarrolladores de IA pueden llamar a una API pero no pueden explicar las matemáticas, el comportamiento del modelo, el fallo de recuperación, el bucle del agente, el arnés de evaluación o el compromiso de producción subyacente a esa llamada.

La premisa del plan de estudios es sencilla: construye primero la versión más pequeña tú mismo y luego utiliza el framework. Ese patrón hace que PyTorch, Transformers, LangGraph, MCP y RAG de producción sean menos mágicos.

La audiencia principal es el ingeniero en activo que desea un camino largo en lugar de una lista de reproducción. Es especialmente relevante para equipos que intentan convertir el entusiasmo por la IA en una capacidad interna duradera.

3. Arquitectura y modelo mental

El repositorio está organizado en torno a fases y lecciones. Cada lección sigue una forma consistente con documentación, código, cuestionarios y resultados, mientras que los scripts auditan las lecciones, construyen catálogos, instalan habilidades y generan el sitio web público.

ÁreaDetallePor qué importa
Plan de estudios`phases/<phase>/<lesson>/`Las carpetas de lecciones contienen documentos, código ejecutable, JSON de cuestionarios y resultados reutilizables.
Hoja de ruta`ROADMAP.md`Estructura de fase canónica, tiempo estimado y cobertura de la lección.
Sitio web`site/build.js`, datos del sitio webConstruye la experiencia de lectura pública a partir del contenido del repositorio.
Ayudantes de habilidades`.claude/skills/find-your-level`, `check-understanding`Colocación asistida por agente y cuestionarios de fase.
Salidas`phases/**/outputs/`Prompts, habilidades, agentes y artefactos relacionados con MCP producidos por las lecciones.
Scripts`scripts/build_catalog.py`, `install_skills.py`, `lesson_run.py`, `audit_lessons.py`Generación de catálogo, instalación de habilidades, comprobaciones de código y auditorías de invariantes de lecciones.
CI`.github/workflows/curriculum.yml`Automatiza auditorías y la sincronización de sitios/README.
Reglas para colaboradores`AGENTS.md`, `CONTRIBUTING.md`, `LESSON_TEMPLATE.md`Mantiene disciplinado el formato de las lecciones y las contribuciones de los agentes de IA.

4. Configuración end-to-end mínima

Los comandos de abajo se copiaron de la documentación del repositorio y se contrastaron con la instantánea de investigación actual. Úsalos como punto de partida y lee después el README enlazado antes de instalarlo en producción.

git clone https://github.com/rohitg00/ai-engineering-from-scratch.git
cd ai-engineering-from-scratch

# Run a first lesson implementation
python phases/01-math-foundations/01-linear-algebra-intuition/code/vectors.py

# Install Python dependencies when needed
python -m pip install -r requirements.txt

Una primera tarea pequeña debe demostrar la integración antes de conectarla a datos críticos o workspaces grandes.

# Find your starting point inside a supported agent
/find-your-level

# Check a phase after studying
/check-understanding 3

# Inspect the generated catalog
python3 scripts/build_catalog.py --stdout

# Install lesson skills into a target skill directory
python3 scripts/install_skills.py <target-dir> --phase 14

# Validate lesson code without running heavy jobs
python3 scripts/lesson_run.py

5. Análisis técnico profundo

5.1 El bucle de lecciones es el producto.

El README describe un patrón repetido: problema, concepto, construirlo, usarlo, lanzarlo. Esa estructura es más importante que cualquier número de lecciones, ya que fuerza la comprensión conceptual antes del uso de frameworks.

Por ejemplo, una lección puede implementar un concepto en Python puro, luego compararlo con una librería y finalmente exportar un prompt o habilidad que te ayude a usar el concepto más adelante.

lesson/
  docs/en.md     # explanation
  code/          # runnable implementation
  quiz.json      # check understanding
  outputs/       # prompt, skill, agent, or MCP artifact

5.2 El plan de estudios asciende desde los fundamentos hasta los agentes.

La estructura de fases comienza con configuración y matemáticas, luego avanza a través de ML, aprendizaje profundo, visión, NLP, voz, transformers, IA generativa, LLMs, sistemas multimodales, herramientas, agentes, producción, seguridad y proyectos finales.

Esa amplitud lo hace útil como manual de referencia, pero también intimidante. La habilidad `/find-your-level` es una respuesta práctica: no comiences en la fase cero si tu brecha real es la evaluación de agentes o RAG en producción.

5.3 Los resultados hacen que las lecciones sean reutilizables.

Un patrón distintivo es que las lecciones no terminan solo con conocimiento. Producen artefactos: prompts, habilidades, plantillas de agentes o resultados relacionados con MCP. Eso significa que el aprendizaje puede retroalimentar tu flujo de trabajo diario con agentes de codificación.

El índice de resultados de nivel superior actual no debe tratarse como la historia completa. Los resultados a nivel de lección y los scripts de instalación son el mecanismo de descubrimiento práctico.

5.4 La ingeniería de agentes es una columna vertebral importante.

Las fases centradas en agentes del repositorio cubren bucles de agentes, ReWOO, Reflexion, Tree of Thoughts, llamadas a funciones, memoria, LangGraph, AutoGen, CrewAI, benchmarks, observabilidad, defensa contra inyección de prompts, puertas de verificación, transferencias y andamiaje de workbench.

Esto es valioso porque muchos tutoriales de agentes omiten las partes aburridas: estado, evaluación, seguridad, recuperación, transferencias y fallos de herramientas. Un plan de estudios que conecte esas piezas es más útil que otro agente de tipo hello-world.

5.5 La calidad sigue siendo un objetivo en movimiento.

El rastreador de problemas muestra los dolores de crecimiento normales de un plan de estudios de rápido avance: sesgo de posición de respuesta en cuestionarios, errores de renderizado, discrepancias en rutas de conjuntos de datos, compatibilidad con Python/PyTorch, formato de tablas, renderizado de diagramas, traducción y cobertura de idiomas.

Eso no hace que el repositorio sea débil. Significa que los lectores deben verificar las lecciones a medida que avanzan y tratar el repositorio como un plan de estudios de código abierto activo en lugar de un libro de texto pulido.

6. Patrones reales: incorrecto vs correcto

IncorrectoCorrectoRazón
Trátalo como un curso con certificado.Trátalo como una ruta de aprendizaje práctica de código abierto y un manual de referencia.El mantenedor ha rechazado explícitamente el posicionamiento como certificado.
Omite los fundamentos y luego culpa a las lecciones posteriores por ser difíciles.Usa `/find-your-level` y sigue las dependencias para tus brechas.El plan de estudios está estructurado intencionalmente.
Asume que cada pista de lenguaje tiene la misma profundidad.Revisa el código de la lección actual para Python, TypeScript, Rust o Julia antes de comprometerte con una ruta.Los problemas abiertos discuten una cobertura centrada en Python.
Solo lee la documentación.Ejecuta el código, responde los cuestionarios y utiliza los resultados generados.El repositorio está diseñado en torno a la práctica de construir/usar/enviar.

7. Errores comunes y problemas actuales

El issue tracker importa porque estos repos son jóvenes y cambian rápido. El artículo usa los issues como señales de riesgo, no como prueba de que el proyecto sea inutilizable.

ÁreaDetallePor qué importa
Sesgo en los cuestionariosEl Issue #240 informa que el sesgo de posición de respuesta aún está presente en main.Usa cuestionarios como práctica, no como evaluación formal.
Renderizado de diagramasEl issue #233 reporta un diagrama de comunicación de la Fase 16 que no se renderiza.Parte del renderizado del sitio web/documentación puede retrasarse respecto a las actualizaciones de contenido.
TablasEl issue #193 reporta tablas desordenadas.Revisa el markdown sin procesar cuando el formato del sitio web parezca incorrecto.
Python 3.14El issue #192 señala problemas de disponibilidad de los wheels de PyTorch CUDA.Usa versiones de Python conocidas y estables para las lecciones de ML.
Rutas del conjunto de datosEl issue #179 rastrea una discrepancia en la ruta del conjunto de datos de Rotten Tomatoes.Espere una deriva ocasional en la fuente de datos.
Cobertura de lenguajesEl issue #168 rastrea la adición de implementaciones en Rust en todo el plan de estudios.El repositorio es amplio, pero no todas las rutas de lenguaje están completas.

8. Notas de rendimiento, escalado y coste

La mayoría de las lecciones iniciales son económicas de ejecutar. Las lecciones posteriores que involucran PyTorch, Transformers, modelos multimodales, inferencia local, ajuste fino o sistemas de proyecto final pueden requerir más cómputo y acceso a API.

La configuración práctica consiste en ejecutar las lecciones en pequeños incrementos, fijar una versión estable de Python y evitar comenzar lecciones que requieran mucha GPU o API hasta que haya leído su documentación y las expectativas de dependencias.

Para los equipos, los scripts y habilidades del repositorio son útiles para la gobernanza del plan de estudios. Puede asignar fases, realizar auditorías, instalar habilidades seleccionadas y mantener un progreso compartido en lugar de pedir a todos que naveguen por cientos de archivos.

9. Para quién es

Úsalo siEvítalo si
Puedes programar y quieres entender los sistemas de IA por debajo de la capa de API.Eres un principiante total en programación.
Quieres un camino largo desde las matemáticas hasta los LLMs, agentes, MCP, infraestructura y seguridad.Quieres un tutorial corto para el fin de semana.
Aprendes implementando y lanzando artefactos reutilizables.Solo quieres videos o ensayos de alto nivel.
Tu equipo necesita una columna vertebral de capacitación en IA de código abierto.Necesitas una certificación acreditada o una calificación formal.

10. Señal de la comunidad

Los artículos web presentan el repositorio como un gran manual de referencia de ingeniería de IA gratuito, comparándolo a menudo con una ruta de estilo universitario. Algunos de esos artículos utilizan recuentos de lecciones obsoletos, por lo que los recuentos deben tratarse como metadatos dinámicos.

La discusión en Reddit es útil porque incluye tanto entusiasmo como escepticismo: preguntas sobre la autoría asistida por IA, la sobrecarga del principiante, los costos de la API y si las lecciones avanzadas sobre agentes abordan la confiabilidad con suficiente profundidad.

El rastreador de issues de GitHub muestra un plan de estudios vivo: PRs de traducción, solicitudes de seguimiento de Rust, errores en cuestionarios, correcciones de renderizado, conexión de lecciones y mejoras en el sitio web.

11. El veredicto: ¿merece la pena usarlo?

Nuestra opinión

Utiliza AI Engineering From Scratch si buscas un camino serio y práctico desde los fundamentos hasta la ingeniería de sistemas de IA. Evítalo si necesitas un curso con certificado pulido, una madurez equivalente en todos los lenguajes de programación o una receta rápida para crear aplicaciones.

12. El panorama general

Este repositorio es parte de una corrección más amplia en la educación sobre IA. Tras años de demostraciones centradas en la API, los ingenieros necesitan comprender cada vez más los datos, las matemáticas, el comportamiento de los modelos, la evaluación, los agentes, los protocolos y los modos de fallo en producción.

El hábito más importante que enseña no es ningún algoritmo en particular. Es el patrón de construir el mecanismo pequeño antes de confiar en el framework grande.

13. Preguntas frecuentes

P: ¿Es AI Engineering From Scratch un framework?

No. Es un plan de estudios y un repositorio de referencia con lecciones, código, cuestionarios, resultados, scripts y un sitio web público.

P: ¿Por dónde debería empezar?

Utiliza `/find-your-level` si tienes un agente con las habilidades instaladas. De lo contrario, comienza por donde tus conocimientos previos sean más débiles: matemáticas, ML, aprendizaje profundo, LLMs, agentes o producción.

P: ¿Necesito una GPU?

No para todas las lecciones. Las primeras lecciones son ligeras, mientras que las de aprendizaje profundo, modelos locales, ajuste fino (fine-tuning) y modelos multimodales pueden beneficiarse de una GPU o computación en la nube.

P: ¿Proporciona certificados?

No. El repositorio está posicionado como aprendizaje práctico de código abierto, no como un programa de certificación acreditado.

P: ¿Las lecciones son solo de Python?

Python es el camino práctico dominante, aunque el README también hace referencia a TypeScript, Rust y Julia. Revisa la carpeta de código de cada lección antes de asumir la cobertura.

P: ¿Cuáles son las habilidades integradas?

Las habilidades de alto nivel incluyen `/find-your-level` para la colocación y `/check-understanding <phase>` para los cuestionarios de fase. Los resultados de las lecciones incluyen más prompts y habilidades.

14. Glosario

ÁreaDetallePor qué importa
Desde ceroImplementar el mecanismo central antes de usar un framework.El estilo de enseñanza central del plan de estudios.
Artefacto de la lecciónUn prompt, habilidad, agente o resultado relacionado con MCP.Algo reutilizable después de la lección.
MCPModel Context Protocol.Utilizado en fases posteriores de herramientas y agentes.
RAGGeneración aumentada por recuperación (RAG).Un patrón de ingeniería de LLM importante.
Bucle de agenteCiclo de control de modelo, llamada a herramienta, observación y siguiente paso.Concepto central de ingeniería de agentes.
CatálogoVista JSON generada de fases, lecciones, código y resultados.Construido a partir de archivos del repositorio.
Proyecto finalUn proyecto integral más grande que combina muchas lecciones.Prueba de comprensión de etapa avanzada.

15. Todas las fuentes y enlaces

Enlaces internos

16. Tabla de atribución de fuentes

ÁreaDetallePor qué importa
README y hoja de rutaForma del plan de estudios, configuración, filosofía, estructura de fases.Fuente primaria.
Scripts y flujos de trabajoCatálogo, comprobaciones de lecciones, instalación de habilidades, comportamiento de CI.Fuente de la arquitectura.
Problemas y PRsCuestionario, renderizado, conjunto de datos, Python, traducción y advertencias sobre la cobertura del lenguaje.Señal de frescura.
Sitio webExperiencia del lector público y desviación en el conteo.Fuente web oficial.
Reddit y artículosEntusiasmo de la comunidad, escepticismo y encuadre de terceros.Fuente secundaria.

Related Guides

Sponsored AI assistant. Recommendations may be paid.