Revisión del curso: Machine Learning AZ: Python y R prácticos en ciencia de datos

R

Prefacio

Todos los días, experimentamos una innovación continua en numerosos campos, y el tremendo crecimiento en el campo de la informática nos ofrece varias tecnologías para consumir. Generamos más de 2 exabytes de datos todos los días, lo cual es demasiado difícil de manejar solo con el esfuerzo humano. Los ingenieros de todo el mundo han creado automatizaciones para encargarse de estos ejercicios. Y el siguiente paso en este proceso es el Machine Learning, que permite que los algoritmos informáticos tomen decisiones fundamentadas en determinados escenarios.

Con el zumbido de tecnologías como la inteligencia artificial, los vehículos autónomos y el reconocimiento de voz, todos hemos utilizado el Machine Learning como tecnología a sabiendas o no. Los extraordinarios avances en el campo nos hacen más dispuestos que nunca a explorar los conceptos de Machine Learning.

 

Instructores

Conozcamos a los instructores antes de profundizar en los detalles del curso:

Kirill Eremenko

Experto en el campo de la ciencia de datos y el comercio de divisas, Kirill Eremenko tiene más de 5 años de experiencia en diversas industrias, incluidas las finanzas, el comercio minorista y el transporte. También experto en big data, trabaja como consultor y realiza cursos en Udemy a través de Equipo de SuperDataScience.

Después de haber obtenido títulos en Física y Matemáticas, Kirill combina su experiencia profesional con antecedentes académicos y ofrece cursos excelentes para entusiastas del aprendizaje. Durante la última década, también disfruta del comercio de divisas, ya que le da un sentido de independencia tanto personal como financieramente. Esto, combinado con el conocimiento de la ciencia de datos, le da una ventaja en el dominio del comercio algorítmico. Como analista, es bueno analizando patrones en procesos y comportamiento humano. Utiliza varias tecnologías como scripting, Java y MQL4 para el mismo.

Hadelin de Ponteves

Apasionado de la IA, Hadelin de Ponteves Le encanta realizar cursos que cubran temas como Machine Learning, aprendizaje profundo e inteligencia artificial. Tiene una maestría en ciencia de datos y mucha experiencia en el campo del Machine Learning. Trabajó con el equipo de inteligencia artificial de Google para implementar modelos de Machine Learning para el análisis empresarial.

Actualmente se dedica a tiempo completo a la realización de varios cursos para estudiantes y se dedica a compartir los conocimientos adquiridos a través de su experiencia. Posee una combinación única de habilidades analíticas y creatividad que es evidente en sus cursos. Además, como dice el podcast del curso, duerme solo 3 horas al día, ¡y lo ha hecho durante los últimos 3 años! ¿Ha conocido a alguien más que haga eso? ¡Habla de pasión por su trabajo!

Visión general

El curso abarca la asombrosa cantidad de 285 conferencias y la duración resulta ser de alrededor de 41 horas. El público objetivo incluye estudiantes de todos los niveles, desde principiantes hasta avanzados. En el momento de escribir este artículo, más de 290.000 estudiantes han realizado el curso sobre Udemy lo que aporta credibilidad a su contenido.

Como el curso está diseñado por dos científicos de datos profesionales, es extenso en términos de contenido. Al mismo tiempo, está organizado de manera que los alumnos de todos los niveles puedan comprender los conceptos con facilidad.

Para comprender e implementar los modelos de ML, los instructores hacen uso de Python y R, dos lenguajes de programación populares que se usan comúnmente en el campo de la ciencia de datos. Los alumnos tienen la opción de elegir el idioma de su elección y omitir el otro, o pueden probar ambos. Como resultado, los instructores no solo van de la mano con los estudiantes sobre los conceptos de ML, sino también sobre estos lenguajes de programación. ¡Mucho aprendizaje involucrado!

contorno

Los instructores intentan hacer del curso una experiencia emocionante para los alumnos, el curso comienza con una sesión introductoria que explica las aplicaciones del Machine Learning y luego procede a la instalación de los entornos de ejecución de Python y R. Los IDEs que se eligen para el curso son Anaconda para Python y R Studio para programación R. Se utilizan las últimas versiones para todas las instalaciones.

Una vez que estamos listos con los entornos, nos sumergimos en los contenidos reales del curso, que se dividen en las siguientes partes, que a su vez se dividen en múltiples secciones posteriormente:

Parte 1 – Preprocesamiento de datos

Como sabemos que los algoritmos de Machine Learning manejan una gran cantidad de datos, el primer paso es preprocesar los datos para convertirlos al formato deseado. Esto facilita la aplicación de pasos posteriores en el mismo. La sección analiza la importación de bibliotecas y conjuntos de datos necesarios, cómo lidiar con las entradas de datos faltantes, categorizar los datos en conjuntos de prueba y entrenamiento, etc.

Los instructores también revisan algunos conceptos básicos de Python asumiendo que los alumnos no tienen conocimientos previos sobre el idioma.

El curso ha organizado las bibliotecas necesarias que se importarán para Python y R por separado. Sin embargo, los conjuntos de datos son comunes para ambos idiomas.

Parte 2 – Regresión

Una vez que los conjuntos de datos están listos, el siguiente paso es aplicar varios modelos de regresión en los mismos para futuras predicciones. Los modelos disponibles incluyen regresiones lineales simples, lineales múltiples, polinomiales, de vectores de soporte, así como clasificaciones de árboles de decisión y bosque aleatorio.

Al final de la sección, el curso compara estos modelos entre sí en cuanto a rendimiento, indicando cuál se adapta mejor según las necesidades.

Parte 3 – Clasificación

Así como usamos modelos de regresión para predecir números continuos, las clasificaciones se usan para predecir una categoría. Las clasificaciones se utilizan en diversas aplicaciones que van desde la atención médica hasta el diseño de estrategias de marketing. Los modelos utilizados para el mismo son Regresión logística, K-vecinos más cercanos, Máquinas de vectores de soporte, Kernel SVM, Naive Bayes, Árbol de decisión y Clasificaciones de bosque aleatorio.

Para comprender el caso de uso de cada modelo, la parte resume los pros y los contras de cada esquema de clasificación al final.

Parte 4 – Agrupación

Como sugiere el nombre, la agrupación en clúster realiza la agrupación en el conjunto de datos en función de varios parámetros.

La sección analiza los modelos de agrupación en clústeres, a saber, K-medias y agrupación jerárquica. La diferencia básica entre estos dos radica en el número de conglomerados que está predefinido en K-medias, mientras que el modelo jerárquico nos da el número óptimo de conglomerados como resultado. Sin embargo, este último no es adecuado para grandes conjuntos de datos.

Parte 5 – Aprendizaje de reglas de asociación

El aprendizaje de reglas de asociación se ocupa de establecer relaciones entre entidades, ejemplos comunes que encontramos regularmente son los algoritmos de recomendación de redes sociales o comercio electrónico. Los modelos utilizados para este fin son Apriori y Eclat.

Parte 6 – Aprendizaje por refuerzo

También conocido como aprendizaje en línea, el aprendizaje por refuerzo observa los datos hasta un cierto intervalo de tiempo y decide el curso de acción para el siguiente.

Particularmente utilizado en IA para máquinas de entrenamiento, RL es un método basado en prueba y error que recompensa a la IA por los resultados deseados, castiga de lo contrario. Esto se logra utilizando los modelos Upper Confidence Bound y Thompson Sampling.

Parte 7 – Procesamiento del lenguaje natural

Podría decirse que la aplicación de ML más utilizada es NLP, siendo ejemplos comunes el reconocimiento de voz, la conversión de texto a voz y la traducción. Si bien parece lógico utilizar la PNL para estos fines, su funcionalidad de búsqueda de palabras clave tiene muchas más implicaciones que van desde la atención médica hasta las industrias financieras.

Bajo el capó, los algoritmos de PNL no son más que modelos de clasificación como Regresión logística, Bayes ingenuo, CART y máxima entropía (relacionados con árboles de decisión) y modelos de Markov ocultos.

Un modelo común para la PNL es el modelo de bolsa de palabras que preprocesa el texto para que lo consuman los modelos de clasificación. Al final de la sección, se deja a los alumnos evaluar el desempeño de cada uno de estos modelos, como un ejercicio.

Parte 8 – Aprendizaje profundo

Un próximo flujo de aprendizaje profundo, el aprendizaje profundo, se utiliza para lograr varias tareas complejas. Los mecanismos de aprendizaje profundo dirigidos a aplicaciones específicas incluyen: redes neuronales artificiales para regresión y clasificación, redes neuronales convolucionales para visión por computadora, redes neuronales recurrentes para análisis de series de tiempo, etc.

La sección cubre las redes neuronales artificiales y convolucionales.

Parte 9 – Reducción de dimensionalidad

Usando técnicas de reducción de dimensionalidad, la cantidad de variables independientes se puede reducir para una mejor visualización de los modelos ML. Cuanto menor sea el número de variables, más fácil será trazarlas en un gráfico para compararlas.

Hay 2 tipos de visualizaciones de reducción de dimensionalidad: selección de características y extracción de características. La selección de características incluye técnicas como eliminación hacia atrás, selección hacia adelante, comparación de puntajes y más. Como ya se tratan en la sección Regresión, esta sección en particular se centra en las metodologías de extracción de características, como el análisis de componentes principales, el análisis discriminante lunar, el PCA del núcleo y el DA cuadrático.

Parte 10 – Selección y mejora de modelos

Habiendo aprendido todos estos modelos en las secciones anteriores, es muy posible confundirse acerca de la selección de un modelo específico para una situación. Esta sección analiza las técnicas para la selección de modelos, como la validación cruzada de k-veces, el ajuste de parámetros y la búsqueda de cuadrícula.

Además, el curso concluye con una sección adicional que se centra en uno de los modelos de Machine Learning potentes y populares, XGBoost.

Una de las mejores cosas del curso es que no solo se enfoca en los aspectos teóricos del Machine Learning, sino que también involucra a los alumnos en ejercicios del mundo real. Los ejercicios les ayudan a comprender mejor los conceptos y los capacitan para resolver problemas a gran escala.

El curso también proporciona a los alumnos conjuntos de datos y plantillas de código adicionales para jugar: ¡construya sus propios modelos de Machine Learning!

Lo que funcionó bien

Aquí hay algunos aspectos positivos del curso que se destacaron:

  • Conozca a los instructores: lo diferente del curso es que, ocasionalmente, Kirill y Hadelin se entrevistan con los estudiantes a través de un podcast. Repasan sus antecedentes y una descripción general del curso. Quien quiera averiguar más sobre las ofertas del curso, sugiero que el podcast sería un buen punto de partida. Además, es de carácter bastante informal, ya que también se habla de los proyectos que están manejando actualmente y otros cursos que realizan, como Deep Learning AZ: redes neuronales artificiales prácticas.
  • Ejercicios interactivos: Otro aspecto interesante del curso es que los ejercicios no son solo para que los alumnos los terminen y olviden. Se espera que publiquen su solución a los instructores a través de la sección de preguntas y respuestas o PM, básicamente iniciando un canal de conversación donde la solución no solo será evaluada sino también discutida.
  • Sección completa de preguntas y respuestas: como muchas personas ya han tomado el curso, las preguntas y respuestas abordan la mayoría de los problemas que se encuentran comúnmente. ¡Yo mismo pude resolver un problema que surgió durante la instalación siguiendo los pasos mencionados en Preguntas y respuestas!

Qué se puede mejorar

En cuanto a todo, el curso tiene algunas áreas de mejora:

  • Como los conceptos de Machine Learning tienden a ser principalmente de naturaleza técnica, algunos de los alumnos pueden encontrar la curva de aprendizaje un poco empinada, especialmente en las primeras secciones. Aunque se debe culpar más al Machine Learning como un campo que al curso, los requisitos previos solo dicen matemáticas de nivel secundario, por lo tanto, los principiantes pueden sentirse un poco abrumados con la amplitud y profundidad de los conceptos. El curso puede esperar que los alumnos actualicen algunos de los conceptos requeridos por adelantado o las secciones iniciales se pueden dividir en subsecciones para facilitar que los alumnos comprendan los conceptos.

Resumen

En conclusión, el curso arroja luz sobre la mayoría de los conceptos de Machine Learning y presenta a los alumnos la infraestructura necesaria para explorar más el campo por sí mismos. Las cosas buenas de Machine Learing AZ: Python y R prácticos en ciencia de datos superan las pequeñas mejoras y seguramente sugeriría el curso para los estudiantes interesados ​​en el campo del Machine Learning.

 

About the author

Ramiro de la Vega

Bienvenido a Pharos.sh

Soy Ramiro de la Vega, Estadounidense con raíces Españolas. Empecé a programar hace casi 20 años cuando era muy jovencito.

Espero que en mi web encuentres la inspiración y ayuda que necesitas para adentrarte en el fantástico mundo de la programación y conseguir tus objetivos por difíciles que sean.

Add comment

Sobre mi

Últimos Post

Etiquetas

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, aceptas el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad