Clasificación de imágenes: ¿cómo reconocer el contenido de una imagen? (Coursera)

Clasificación de imágenes: ¿cómo reconocer el contenido de una imagen? (Coursera)

¿Te interesa la visión por computador? ¿Te gustaría saber cómo se puede reconocer el contenido visual de las imágenes y clasificarlas a partir de su contenido? En este curso aprenderás diferentes métodos de representación y clasificación de imágenes. El temario del curso te permitirá conocer el esquema básico de clasificación de imágenes conocido como Bag of Visual Words.

Class Deals by MOOC List - Click here and see Coursera's Active Discounts, Deals, and Promo Codes.

A partir de este esquema básico aprenderás cómo utilizar varios descriptores locales de la imagen así como los métodos de clasificación más habituales. También describiremos diferentes extensiones del esquema básico que permiten combinar distintos descriptores, incluir información espacial o mejorar la representación final de la imagen.
Finalizar el curso te permitirá:
• Diseñar soluciones adaptadas para diferentes problemas de clasificación y reconocimiento de imágenes
• Conocer las principales técnicas usadas para la descripción y clasificación de una imagen
• Acceder a las herramientas que permiten el desarrollo de aplicaciones reales de clasificación de imágenes
El curso está orientado tanto a estudiantes universitarios de algún grado relacionado con la informática, la ingeniería o las matemáticas, como a otros estudiantes con conocimientos de programación, interesados en aprender cómo utilizar técnicas de visión por computador para extraer información de las imágenes.

Syllabus

WEEK 1
Introducción a la clasificación de imágenes
En esta primera semana explicaremos los fundamentos de la clasificación de imágenes y presentaremos todos los pasos de un primer sistema de clasificación básico. Para ello, primero veremos algunos conceptos básicos sobre el procesamiento de una imagen que nos servirán para introducir un primer método para detectar y describir características locales (SIFT) en una imagen. Luego veremos cómo podemos agrupar estas características locales para representar toda la imagen y explicaremos un primer clasificador simple, k-NN. Finalmente comentaremos los aspectos básicos de la evaluación del rendimiento de un sistema de clasificación de imágenes.

WEEK 2
Bag of Words (BoW)
Esta semana introduciremos Bag of Words como método de representación básico que utilizaremos mayoritariamente a lo largo de todo el curso. Explicaremos todos los detalles necesarios para construir la representación BoW de una imagen, incluyendo la construcción del vocabulario utilizando K-Means y cómo agregar la información de las características locales en la representación final en forma de histograma. En la segunda parte de la semana explicaremos Support Vector Machines (SVM) como método de clasificación, tanto los conceptos fundamentales como su formulación matemática y los detalles para entrenar y utilizar un clasificador basado en SVM. Finalmente, completaremos la explicación de la evaluación del rendimiento que introducimos en la primera semana.

WEEK 3
Extracción de características
En esta semana completaremos la explicación de métodos de extracción de características que iniciamos en la primera semana ofreciendo alternativas a la utilización de SIFT. En concreto veremos SURF como un nuevo método de detección y extracción más eficiente computacionalmente que SIFT. Para aumentar la capacidad descriptiva de las características analizaremos otras estrategias para la detección de características locales e introduciremos descriptores que nos permitan tener en cuenta la información del color en la imagen. Veremos también como podemos también mejorar la eficiencia computacional reduciendo la dimensión de los descriptores de carácterísticas locales.

WEEK 4
Estrategias de fusión
En esta semana veremos cómo podemos combinar diferentes descriptores que aportan diferente tipo de información en el esquema de representación BoW. Explicaremos los diferentes niveles a los que se puede hacer esta combinación: a nivel de descriptores locales (early fusion), a nivel de construcción del vocabulario (intemediate fusion) o a nivel de clasificador (late fusion)

WEEK 5
Incorporación de información espacial
En esta semana abordaremos cómo podemos incorporar información espacial de los objetos de la imagen en la representación BoW. Para ello introduciremos el concepto de pirámide espacial y cómo se utiliza para modificar la representación básica del BoW de forma que tengamos en cuenta la localización en la imagen de cada característica local. Veremos también cómo podemos comparar imágenes que utilizan la pirámide espacial. Finalmente explicaremos una forma de aprender la configuración óptima de una pirámide espacial.

WEEK 6
Técnicas avanzadas
En esta última semana veremos algunas técnicas avanzadas que pueden ser extensiones o alternativas al BoW cuando nos enfrentamos a problemas de clasificación complejos por el tipo o el número de imágenes. En primer lugar veremos los GMM como un método alternativo para construir el vocabulario que nos servirá también para explicar Fisher Vector como otra posibilidad de agregar todas las características locales en una representación de toda la imagen. En el mismo sentido explicaremos también VLAD. Finalizaremos el curso con una breve introducción a las redes neuronales convolucionales (CNNs) que se están constituyendo como un esquema alternativo para la clasificación de imágenes, especialmente en problemas con muchas clases e imágenes.

Go to Class
MOOC List is learner-supported. When you buy through links on our site, we may earn an affiliate commission.

Related Courses

Landing.AI for Beginners: Build Data Visualization AI Models (Coursera) Coursera
Coursera Project Network

Landing.AI for Beginners: Build Data Visualization AI Models (Coursera)

In this 1-hour long project-based course, you'll step into the exciting field of Computer Vision and Generative AI using the LandingLens platform. We'll start by exploring the concept of visual prompting, and initiating a visual prompting project. LandingLens simplifies the model creation, training, and deployment process, making it a user-friendly platform for this endeavor.

Jun 1st 2026
1 Week
Seeing Through Photographs (Coursera) Coursera
The Museum of Modern Art

Seeing Through Photographs (Coursera)

Although taking, sharing, and viewing photographs has become second nature for many of us, our regular engagement with images does not necessarily make us visually literate. This course aims to address the gap between seeing and truly understanding photographs by introducing a diversity of ideas, approaches, and technologies that inform their making. In this course you will look closely at 100 photographs from the collection of The Museum of Modern Art, going behind the scenes of the Museum and into artist studios through original films and audio interviews.

Jun 1st 2026
5-12 Weeks
Machine Learning for Computer Vision (Coursera) Coursera
MathWorks

Machine Learning for Computer Vision (Coursera)

In the second course of the Computer Vision for Engineering and Science specialization, you will perform two of the most common computer vision tasks: classifying images and detecting objects. You will apply the entire machine learning workflow, from preparing your data to evaluating your results. By the end of this course, you’ll train machine learning models to classify images of street signs and detect material defects.

Jun 1st 2026
4 Weeks
Intermediate Intel® Distribution of OpenVINO™ toolkit for Deep Learning Applications (Coursera) Coursera
Intel Corporation

Intermediate Intel® Distribution of OpenVINO™ toolkit for Deep Learning Applications (Coursera)

This course is designed for application developers who wants to deploy computer vision inference workloads using the Intel® Distribution of OpenVINOTM toolkit. The course looks at computer vision neural network models from a variety of popular machine learning frameworks and covers writing a portable application capable of deploying inference on a range of compute devices.

Jun 10th 2024
1 Week
Deep Learning Applications for Computer Vision (Coursera) Coursera
University of Colorado Boulder

Deep Learning Applications for Computer Vision (Coursera)

This course can be taken for academic credit as part of CU Boulder’s Master of Science in Data Science (MS-DS) degree offered on the Coursera platform. The MS-DS is an interdisciplinary degree that brings together faculty from CU Boulder’s departments of Applied Mathematics, Computer Science, Information Science, and others. With performance-based admissions and no application process, the MS-DS is ideal for individuals with a broad range of undergraduate education and/or professional experience in computer science, information science, mathematics, and statistics.

May 25th 2026
5-12 Weeks
Object Tracking and Motion Detection with Computer Vision (Coursera) Coursera
MathWorks

Object Tracking and Motion Detection with Computer Vision (Coursera)

In the third and final course of the Computer Vision for Engineering and Science specialization, you will learn to track objects and detect motion in videos. Tracking objects and detecting motion are difficult tasks but are required for applications as varied as microbiology and autonomous systems. To track objects, you first need to detect them. You’ll use pre-trained deep neural networks to perform object detection. You’ll also use optical flow to detect motion and use the results to detect moving objects.

Jun 1st 2026
4 Weeks
Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning (Coursera) Coursera
DeepLearning.AI

Introduction to TensorFlow for Artificial Intelligence, Machine Learning, and Deep Learning (Coursera)

If you are a software developer who wants to build scalable AI-powered algorithms, you need to understand how to use the tools to build them. This course is part of the upcoming Machine Learning in Tensorflow Specialization and will teach you best practices for using TensorFlow, a popular open-source framework for machine learning.

May 25th 2026
4 Weeks
Getting Started with Machine Learning at the Edge on Arm (Coursera) Coursera
Arm

Getting Started with Machine Learning at the Edge on Arm (Coursera)

The age of machine learning has arrived! Arm technology is powering a new generation of connected devices with sophisticated sensors that can collect a vast range of environmental, spatial and audio/visual data. Typically this data is processed in the cloud using advanced machine learning tools that are enabling new applications reshaping the way we work, travel, live and play.

Jun 8th 2026
5-12 Weeks
Visual Perception (Coursera) Coursera
Columbia University

Visual Perception (Coursera)

The ultimate goal of a computer vision system is to generate a detailed symbolic description of each image shown. This course focuses on the all-important problem of perception. We first describe the problem of tracking objects in complex scenes. We look at two key challenges in this context. The first is the separation of an image into object and background using a technique called change detection.

Jun 1st 2026
5-12 Weeks
Copyright for Multimedia (Coursera) Coursera
Duke University,Emory University,University of North Carolina

Copyright for Multimedia (Coursera)

Copyright questions about different formats (data, images, music and video) can be especially difficult. Sometimes the law specifically distinguishes between these different formats, and in most cases there are media-specific considerations that impact a copyright analysis. In this course we will look at four different media, paying special attention to the unique issues for each one and the kinds of information that is important when making copyright decisions for each type of material.

May 25th 2026
4 Weeks
Introduction to Computer Vision with Watson and OpenCV (Coursera) Coursera
IBM

Introduction to Computer Vision with Watson and OpenCV (Coursera)

Computer Vision is one of the most exciting fields in Machine Learning and AI. It has applications in many industries such as self-driving cars, robotics, augmented reality, face detection in law enforcement agencies. In this beginner-friendly course you will understand about computer vision, and will learn about its various applications across many industries.

Jun 1st 2026
4 Weeks