Revisi贸n del curso: Machine Learning AZ: Python y R pr谩cticos en ciencia de datos

    Prefacio

    Todos los d铆as, experimentamos una innovaci贸n continua en numerosos campos, y el tremendo crecimiento en el campo de la inform谩tica nos ofrece varias tecnolog铆as para consumir. Generamos m谩s de 2 exabytes de datos todos los d铆as, lo cual es demasiado dif铆cil de manejar solo con el esfuerzo humano. Los ingenieros de todo el mundo han creado automatizaciones para encargarse de estos ejercicios. Y el siguiente paso en este proceso es el Machine Learning, que permite que los algoritmos inform谩ticos tomen decisiones fundamentadas en determinados escenarios.

    Con el zumbido de tecnolog铆as como la inteligencia artificial, los veh铆culos aut贸nomos y el reconocimiento de voz, todos hemos utilizado el Machine Learning como tecnolog铆a a sabiendas o no. Los extraordinarios avances en el campo nos hacen m谩s dispuestos que nunca a explorar los conceptos de Machine Learning.

     

    Instructores

    Conozcamos a los instructores antes de profundizar en los detalles del curso:

    Kirill Eremenko

    Experto en el campo de la ciencia de datos y el comercio de divisas, Kirill Eremenko tiene m谩s de 5 a帽os de experiencia en diversas industrias, incluidas las finanzas, el comercio minorista y el transporte. Tambi茅n experto en big data, trabaja como consultor y realiza cursos en Udemy a trav茅s de Equipo de SuperDataScience.

    Despu茅s de haber obtenido t铆tulos en F铆sica y Matem谩ticas, Kirill combina su experiencia profesional con antecedentes acad茅micos y ofrece cursos excelentes para entusiastas del aprendizaje. Durante la 煤ltima d茅cada, tambi茅n disfruta del comercio de divisas, ya que le da un sentido de independencia tanto personal como financieramente. Esto, combinado con el conocimiento de la ciencia de datos, le da una ventaja en el dominio del comercio algor铆tmico. Como analista, es bueno analizando patrones en procesos y comportamiento humano. Utiliza varias tecnolog铆as como scripting, Java y MQL4 para el mismo.

    Hadelin de Ponteves

    Apasionado de la IA, Hadelin de Ponteves Le encanta realizar cursos que cubran temas como Machine Learning, aprendizaje profundo e inteligencia artificial. Tiene una maestr铆a en ciencia de datos y mucha experiencia en el campo del Machine Learning. Trabaj贸 con el equipo de inteligencia artificial de Google para implementar modelos de Machine Learning para el an谩lisis empresarial.

    Actualmente se dedica a tiempo completo a la realizaci贸n de varios cursos para estudiantes y se dedica a compartir los conocimientos adquiridos a trav茅s de su experiencia. Posee una combinaci贸n 煤nica de habilidades anal铆ticas y creatividad que es evidente en sus cursos. Adem谩s, como dice el podcast del curso, duerme solo 3 horas al d铆a, 隆y lo ha hecho durante los 煤ltimos 3 a帽os! 驴Ha conocido a alguien m谩s que haga eso? 隆Habla de pasi贸n por su trabajo!

    Visi贸n general

    El curso abarca la asombrosa cantidad de 285 conferencias y la duraci贸n resulta ser de alrededor de 41 horas. El p煤blico objetivo incluye estudiantes de todos los niveles, desde principiantes hasta avanzados. En el momento de escribir este art铆culo, m谩s de 290.000 estudiantes han realizado el curso sobre Udemy lo que aporta credibilidad a su contenido.

    Como el curso est谩 dise帽ado por dos cient铆ficos de datos profesionales, es extenso en t茅rminos de contenido. Al mismo tiempo, est谩 organizado de manera que los alumnos de todos los niveles puedan comprender los conceptos con facilidad.

    Para comprender e implementar los modelos de ML, los instructores hacen uso de Python y R, dos lenguajes de programaci贸n populares que se usan com煤nmente en el campo de la ciencia de datos. Los alumnos tienen la opci贸n de elegir el idioma de su elecci贸n y omitir el otro, o pueden probar ambos. Como resultado, los instructores no solo van de la mano con los estudiantes sobre los conceptos de ML, sino tambi茅n sobre estos lenguajes de programaci贸n. 隆Mucho aprendizaje involucrado!

    contorno

    Los instructores intentan hacer del curso una experiencia emocionante para los alumnos, el curso comienza con una sesi贸n introductoria que explica las aplicaciones del Machine Learning y luego procede a la instalaci贸n de los entornos de ejecuci贸n de Python y R. Los IDEs que se eligen para el curso son Anaconda para Python y R Studio para programaci贸n R. Se utilizan las 煤ltimas versiones para todas las instalaciones.

    Una vez que estamos listos con los entornos, nos sumergimos en los contenidos reales del curso, que se dividen en las siguientes partes, que a su vez se dividen en m煤ltiples secciones posteriormente:

    Parte 1 – Preprocesamiento de datos

    Como sabemos que los algoritmos de Machine Learning manejan una gran cantidad de datos, el primer paso es preprocesar los datos para convertirlos al formato deseado. Esto facilita la aplicaci贸n de pasos posteriores en el mismo. La secci贸n analiza la importaci贸n de bibliotecas y conjuntos de datos necesarios, c贸mo lidiar con las entradas de datos faltantes, categorizar los datos en conjuntos de prueba y entrenamiento, etc.

    Los instructores tambi茅n revisan algunos conceptos b谩sicos de Python asumiendo que los alumnos no tienen conocimientos previos sobre el idioma.

    El curso ha organizado las bibliotecas necesarias que se importar谩n para Python y R por separado. Sin embargo, los conjuntos de datos son comunes para ambos idiomas.

    Parte 2 – Regresi贸n

    Una vez que los conjuntos de datos est谩n listos, el siguiente paso es aplicar varios modelos de regresi贸n en los mismos para futuras predicciones. Los modelos disponibles incluyen regresiones lineales simples, lineales m煤ltiples, polinomiales, de vectores de soporte, as铆 como clasificaciones de 谩rboles de decisi贸n y bosque aleatorio.

    Al final de la secci贸n, el curso compara estos modelos entre s铆 en cuanto a rendimiento, indicando cu谩l se adapta mejor seg煤n las necesidades.

    Parte 3 – Clasificaci贸n

    As铆 como usamos modelos de regresi贸n para predecir n煤meros continuos, las clasificaciones se usan para predecir una categor铆a. Las clasificaciones se utilizan en diversas aplicaciones que van desde la atenci贸n m茅dica hasta el dise帽o de estrategias de marketing. Los modelos utilizados para el mismo son Regresi贸n log铆stica, K-vecinos m谩s cercanos, M谩quinas de vectores de soporte, Kernel SVM, Naive Bayes, 脕rbol de decisi贸n y Clasificaciones de bosque aleatorio.

    Para comprender el caso de uso de cada modelo, la parte resume los pros y los contras de cada esquema de clasificaci贸n al final.

    Parte 4 – Agrupaci贸n

    Como sugiere el nombre, la agrupaci贸n en cl煤ster realiza la agrupaci贸n en el conjunto de datos en funci贸n de varios par谩metros.

    La secci贸n analiza los modelos de agrupaci贸n en cl煤steres, a saber, K-medias y agrupaci贸n jer谩rquica. La diferencia b谩sica entre estos dos radica en el n煤mero de conglomerados que est谩 predefinido en K-medias, mientras que el modelo jer谩rquico nos da el n煤mero 贸ptimo de conglomerados como resultado. Sin embargo, este 煤ltimo no es adecuado para grandes conjuntos de datos.

    Parte 5 – Aprendizaje de reglas de asociaci贸n

    El aprendizaje de reglas de asociaci贸n se ocupa de establecer relaciones entre entidades, ejemplos comunes que encontramos regularmente son los algoritmos de recomendaci贸n de redes sociales o comercio electr贸nico. Los modelos utilizados para este fin son Apriori y Eclat.

    Parte 6 – Aprendizaje por refuerzo

    Tambi茅n conocido como aprendizaje en l铆nea, el aprendizaje por refuerzo observa los datos hasta un cierto intervalo de tiempo y decide el curso de acci贸n para el siguiente.

    Particularmente utilizado en IA para m谩quinas de entrenamiento, RL es un m茅todo basado en prueba y error que recompensa a la IA por los resultados deseados, castiga de lo contrario. Esto se logra utilizando los modelos Upper Confidence Bound y Thompson Sampling.

    Parte 7 – Procesamiento del lenguaje natural

    Podr铆a decirse que la aplicaci贸n de ML m谩s utilizada es NLP, siendo ejemplos comunes el reconocimiento de voz, la conversi贸n de texto a voz y la traducci贸n. Si bien parece l贸gico utilizar la PNL para estos fines, su funcionalidad de b煤squeda de palabras clave tiene muchas m谩s implicaciones que van desde la atenci贸n m茅dica hasta las industrias financieras.

    Bajo el cap贸, los algoritmos de PNL no son m谩s que modelos de clasificaci贸n como Regresi贸n log铆stica, Bayes ingenuo, CART y m谩xima entrop铆a (relacionados con 谩rboles de decisi贸n) y modelos de Markov ocultos.

    Un modelo com煤n para la PNL es el modelo de bolsa de palabras que preprocesa el texto para que lo consuman los modelos de clasificaci贸n. Al final de la secci贸n, se deja a los alumnos evaluar el desempe帽o de cada uno de estos modelos, como un ejercicio.

    Parte 8 – Aprendizaje profundo

    Un pr贸ximo flujo de aprendizaje profundo, el aprendizaje profundo, se utiliza para lograr varias tareas complejas. Los mecanismos de aprendizaje profundo dirigidos a aplicaciones espec铆ficas incluyen: redes neuronales artificiales para regresi贸n y clasificaci贸n, redes neuronales convolucionales para visi贸n por computadora, redes neuronales recurrentes para an谩lisis de series de tiempo, etc.

    La secci贸n cubre las redes neuronales artificiales y convolucionales.

    Parte 9 – Reducci贸n de dimensionalidad

    Usando t茅cnicas de reducci贸n de dimensionalidad, la cantidad de variables independientes se puede reducir para una mejor visualizaci贸n de los modelos ML. Cuanto menor sea el n煤mero de variables, m谩s f谩cil ser谩 trazarlas en un gr谩fico para compararlas.

    Hay 2 tipos de visualizaciones de reducci贸n de dimensionalidad: selecci贸n de caracter铆sticas y extracci贸n de caracter铆sticas. La selecci贸n de caracter铆sticas incluye t茅cnicas como eliminaci贸n hacia atr谩s, selecci贸n hacia adelante, comparaci贸n de puntajes y m谩s. Como ya se tratan en la secci贸n Regresi贸n, esta secci贸n en particular se centra en las metodolog铆as de extracci贸n de caracter铆sticas, como el an谩lisis de componentes principales, el an谩lisis discriminante lunar, el PCA del n煤cleo y el DA cuadr谩tico.

    Parte 10 – Selecci贸n y mejora de modelos

    Habiendo aprendido todos estos modelos en las secciones anteriores, es muy posible confundirse acerca de la selecci贸n de un modelo espec铆fico para una situaci贸n. Esta secci贸n analiza las t茅cnicas para la selecci贸n de modelos, como la validaci贸n cruzada de k-veces, el ajuste de par谩metros y la b煤squeda de cuadr铆cula.

    Adem谩s, el curso concluye con una secci贸n adicional que se centra en uno de los modelos de Machine Learning potentes y populares, XGBoost.

    Una de las mejores cosas del curso es que no solo se enfoca en los aspectos te贸ricos del Machine Learning, sino que tambi茅n involucra a los alumnos en ejercicios del mundo real. Los ejercicios les ayudan a comprender mejor los conceptos y los capacitan para resolver problemas a gran escala.

    El curso tambi茅n proporciona a los alumnos conjuntos de datos y plantillas de c贸digo adicionales para jugar: 隆construya sus propios modelos de Machine Learning!

    Lo que funcion贸 bien

    Aqu铆 hay algunos aspectos positivos del curso que se destacaron:

    • Conozca a los instructores: lo diferente del curso es que, ocasionalmente, Kirill y Hadelin se entrevistan con los estudiantes a trav茅s de un podcast. Repasan sus antecedentes y una descripci贸n general del curso. Quien quiera averiguar m谩s sobre las ofertas del curso, sugiero que el podcast ser铆a un buen punto de partida. Adem谩s, es de car谩cter bastante informal, ya que tambi茅n se habla de los proyectos que est谩n manejando actualmente y otros cursos que realizan, como Deep Learning AZ: redes neuronales artificiales pr谩cticas.
    • Ejercicios interactivos: Otro aspecto interesante del curso es que los ejercicios no son solo para que los alumnos los terminen y olviden. Se espera que publiquen su soluci贸n a los instructores a trav茅s de la secci贸n de preguntas y respuestas o PM, b谩sicamente iniciando un canal de conversaci贸n donde la soluci贸n no solo ser谩 evaluada sino tambi茅n discutida.
    • Secci贸n completa de preguntas y respuestas: como muchas personas ya han tomado el curso, las preguntas y respuestas abordan la mayor铆a de los problemas que se encuentran com煤nmente. 隆Yo mismo pude resolver un problema que surgi贸 durante la instalaci贸n siguiendo los pasos mencionados en Preguntas y respuestas!

    Qu茅 se puede mejorar

    En cuanto a todo, el curso tiene algunas 谩reas de mejora:

    • Como los conceptos de Machine Learning tienden a ser principalmente de naturaleza t茅cnica, algunos de los alumnos pueden encontrar la curva de aprendizaje un poco empinada, especialmente en las primeras secciones. Aunque se debe culpar m谩s al Machine Learning como un campo que al curso, los requisitos previos solo dicen matem谩ticas de nivel secundario, por lo tanto, los principiantes pueden sentirse un poco abrumados con la amplitud y profundidad de los conceptos. El curso puede esperar que los alumnos actualicen algunos de los conceptos requeridos por adelantado o las secciones iniciales se pueden dividir en subsecciones para facilitar que los alumnos comprendan los conceptos.

    Resumen

    En conclusi贸n, el curso arroja luz sobre la mayor铆a de los conceptos de Machine Learning y presenta a los alumnos la infraestructura necesaria para explorar m谩s el campo por s铆 mismos. Las cosas buenas de Machine Learing AZ: Python y R pr谩cticos en ciencia de datos superan las peque帽as mejoras y seguramente sugerir铆a el curso para los estudiantes interesados 鈥嬧媏n el campo del Machine Learning.

     

    Etiquetas:

    Deja una respuesta

    Tu direcci贸n de correo electr贸nico no ser谩 publicada. Los campos obligatorios est谩n marcados con *