Big Data: procesamiento y análisis (Coursera)

Big Data: procesamiento y análisis (Coursera)
Course Auditing
Categories
Effort
Certification
Languages
Misc

MOOC List is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Big Data: procesamiento y análisis (Coursera)
El presente curso tiene como objetivo presentar los métodos y técnicas básicos para el procesamiento y análisis de datos en el contexto de Big Data. No prentende ser un curso exhaustivo sobre Machine Learning ni sobre métodos Estadísticos, simplemente se pretenden mostrar las características principales de estas técnicas para que el alumno pueda tener una visión general de las opciones que ofrece el análisis de datos para poder explorar, confirmar indicios y en definitiva, extraer conclusiones.

MOOC List is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

El curso está dirigido a estudiantes y profesionales que deseen aproximarse al procesamiento y análisis de datos en Big Data. Aunque no es un requisito indispensable tener experiencia en análisis de datos o en entornos Big Data, el curso puede resultar especialmente interesante a estudiantes con ciertos conocimientos de análisis de datos que deseen introducirse en el entorno Big Data, por otro lado, también resultará interesante a aquellos estudiantes con cierta experiencia en entornos Big Data que deseen adquirir una mayor visión analítica.

En este sentido el curso pretende ofrecer recursos realistas en el contexto Big Data y por este motivo se trabajará des de una máquina virtual con la aplicación Jupyter como enlace para desarrollar los modelos y técnicas con PySpark.


Course 3 of 5 in the Big Data – Introducción al uso práctico de datos masivos Specialization


Syllabus


WEEK 1

Introducción

La máquina virtual

ATENCIÓN: Si ya te instalaste la máquina virtual en el curso anterior de la Especialización no es necesario que vuelvas a hacerlo. En caso contrario, sigue leyendo.Los ejercicios y sesiones prácticas pretenden mostrar un caso práctico de procesamiento y análisis de datos en el contexto de Big Data. En este sentido, será necesario trabajar con una máquina virtual que ya trae configuradas e instaladas una serie de componentes habituales al manejar Big Data. En este apartado te explicamos cómo descargar e instalar la máquina virtual Cloudera en tu ordenador. La MV-Cloudera requiere disponer de un equipo con las siguientes características: (1) máquina de 64 bits, (2) mínimo 6G de memoria (recomendable 8G), y (3) 20G disponibles en disco.Ten en cuenta que bajar e instalar la máquina virtual te llevará tiempo dado el tamaño y complejidad de la misma

Material de práticas y ficheiro de trabajo

Para poder seguir la parte aplicada del curso, responder a los cuestionarios y trabajar con las herramientas que te explicamos, necesitarás acceder a una serie de ficheros de código, así como las bases de datos de trabajo, que hemos recopilado y comprimido. Verás que algunos vídeos llevan un código entre paréntesis que coincide con el nombre de alguno de estos ficheros. Esto significa que en el vídeo correspondiente se trabaja con dicho fichero.

A continuación te explicamos como incorporarlos en la máquina virtual.

Análisis Exploratorio de Datos

Durante la primera semana del curso se introducen el curso y las herramientas que se emplearán. Además también se presentan las tareas relacionadas con el Análisis Exploratorio de Datos.


WEEK 2

Modelos de regresión

En el módulo 2 del curso se introducen conceptos de modelización generales (calibración y validación) y en particular los modelos de regresión lineal y regresión logística. Desde la perspectiva de Big Data, se incluyen aspectos relacionados con la regularización de los modelos para su simplificación. Como en el módulo anterior, visualiza los vídeos, contesta los cuestionarios tantas veces como quieras, y accede a los foros para discutir los temas que te parezcan más interesantes.


WEEK 3

Árboles de regresión y clasificación

En el módulo 3 del curso se introduce la família de modelos basada en árboles (clasificación, regresión, bosques) y aspectos generales sobre la incertidumbre y el sobreajuste. Después de cada tema, o de unos pocos temas, encontrarás un cuestionario para comprobar tu nivel de comprensión de los mismos.Visualiza los vídeos, contesta los cuestionarios tantas veces como quieras, y accede a los foros para discutir los temas que te parezcan más interesantes.


WEEK 4

Redes neuronales y técnicas no supervisadas

En el módulo 4 del curso se introduce la família de modelos basada en redes neuronales así como se introducen las técnicas básicas no supervisadas, tanto de clasificación automática como de reducción de la dimensionalidad. En este módulo, además de los cuestionarios convencionales, tendrás que realizar un trabajo práctico en el que trabajarás las técnicas aprendidas hasta el momento. Visualiza los vídeos, contesta los cuestionarios tantas veces como quieras, realiza el ejercicios práctico, y accede a los foros para discutir los temas que te parezcan más interesantes.



MOOC List is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Course Auditing
32.00 EUR/month

MOOC List is learner-supported. When you buy through links on our site, we may earn an affiliate commission.