Seguimos explorando diferentes aplicaciones de visión artificial. En posts anteriores hemos hablado de localización y detección de objetos. En este caso exploraremos la tarea de segmentación semántica, consistente en clasificar todos y cada uno de los píxeles en una imagen.
Si bien en la tarea de clasificación consiste en asignar una etiqueta a una imagen en particular, en la tarea de segmentación tendremos que asignar una etiqueta a cada pixel produciendo mapas de segmentación
, imágenes con la misma resolución que la imagen utilizada a la entrada de nuestro modelo en la que cada pixel es sustituido por una etiqueta.
En las arquitecturas que hemos utilizado en el resto de tareas, las diferentes capas convolucionales van reduciendo el tamaño de los mapas de características (ya sea por la configuración de filtros utilizados o el uso de pooling
). Para hacer clasificación conectamos la salida de la última capa convolucional a un MLP
para generar las predicciones, mientras que para la detección utilizamos diferentes capas convolucionales a diferentes escalas para generar las cajas y clasificación. En el caso de la segmentación necesitamos de alguna manera recuperar las dimensiones originales de la imagen. Vamos a ver algunos ejemplos de arquitecturas que consiguen esto mismo.
La primera idea que podemos probar es utilizar una CNN
que no reduzca las dimensiones de los diferentes mapas de características, utilizando la correcta configuración de filtros y sin usar pooling
Este tipo de arquitectura, sin embargo, no será capaz de extraer características a diferentes escalas y además será computacionalmente muy costos. Podemos aliviar estos problemas utilizando una arquitectura encoder-decoder
, en la que en una primera etapa una CNN
extrae características a diferentes escalas y luego otra CNN
recupera las dimensiones originales.
Para poder utilizar este tipo de arquitecturas necesitamos alguna forma de incrementar la dimensión de un mapa de características. De entre las diferentes opciones, una muy utilizada es el uso de convoluciones traspuestas
, una capa muy parecida a la capa convolucional que "aprende" la mejor forma de aumentar un mapa de características aplicando filtros que aumentan la resolución.
import torch
input = torch.randn(64, 10, 20, 20)
# aumentamos la dimensión x2
conv_trans = torch.nn.ConvTranspose2d(
output = conv_trans(input)
torch.Size([64, 20, 40, 40])
Puedes aprender más sobre esta operación en la documentación de Pytorch
. De esta manera podemos diseñar arquitecturas más eficientes capaces de extraer información relevante a varias escalas. Sin embargo, puede ser un poco complicado recuperar información en el decoder
simplemente a partir de la salida del encoder
. Para resolver este problema se desarrolló una de las arquitecturas más conocidas y utilizadas para la segmentación: la red UNet
Esta arquitectura es muy similar a la anterior, con la diferencia de que en cada etapa del decoder
no solo entra la salida de la capa anterior sino también la salida de la capa correspondiente del encoder
. De esta manera la red es capaz de aprovechar mucho mejor la información a las diferentes escalas.
Vamos a ver cómo implementar esta arquitectura para hacer segmentación de MRIs.
El Dataset
Podemos descargar un conjunto de imágenes de MRIs con sus correspondientes máscaras de segmentación usando el siguiente enlace.
import wget
url = 'https://mymldatasets.s3.eu-de.cloud-object-storage.appdomain.cloud/MRIs.zip'
'MRIs (6).zip'
import zipfile
with zipfile.ZipFile('MRIs.zip', 'r') as zip_ref:
Nuestro objetivo será el de segmentar una MRI cerebral para detectar la materia gris y blanca. Determinar la cantidad de ambas así como su evolución en el tiempo para un mismo paciente es clave para la detección temprana y tratamiento de enfermedades como el alzheimer.
import os
from pathlib import Path
path = Path('./MRIs')
imgs = [path/'MRIs'/i for i in os.listdir(path/'MRIs')]
ixs = [i.split('_')[-1] for i in os.listdir(path/'MRIs')]
masks = [path/'Segmentations'/f'segm_{ix}' for ix in ixs]
len(imgs), len(masks)
(425, 425)
import matplotlib.pyplot as plt
import numpy as np
fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(30,10))
img = np.load(imgs[0])
mask = np.load(masks[0])
ax3.imshow(mask, alpha=0.4)
Nuestras imágenes tienen 394 x 394 píxeles, almacenadas como arrays
de NumPy
(que podemos cargar con la función np.load
). Ya están normalizadas y en formato float32
img.shape, img.dtype, img.max(), img.min()
((394, 394), dtype('float32'), 1.0093316, 0.00025629325)
En cuanto a las máscaras, también las tenemos guardadas como arrays
de NumPy
. En este caso el tipo es unit8
, y la resolución es la misma que las de la imagen original. En cada píxel podemos encontrar tres posibles valores: 0, 1 ó 2. Este valor indica la clase (0 corresponde con materia blanca, 1 con materia gris, 2 con background).
mask.shape, mask.dtype, mask.max(), mask.min()
((394, 394), dtype('uint8'), 2, 0)
A la hora de entrenar nuestra red necesitaremos esta máscara en formato one-hot encoding
, en el que extenderemos cada pixel en una lista de longitud igual al número de clases (en este caso 3) con valores de 0 en todas las posiciones excepto en aquella que corresponda con la clase, dónde pondremos un 1.
# one-hot encoding
mask_oh = (np.arange(3) == mask[...,None]).astype(np.float32)
mask_oh.shape, mask_oh.dtype, mask_oh.max(), mask_oh.min()
((394, 394, 3), dtype('float32'), 1.0, 0.0)
Vamos ahora a implementar nuestra red neuronal similar a UNet
import torch.nn.functional as F
def conv3x3_bn(ci, co):
return torch.nn.Sequential(
torch.nn.Conv2d(ci, co, 3, padding=1),
def encoder_conv(ci, co):
return torch.nn.Sequential(
conv3x3_bn(ci, co),
conv3x3_bn(co, co),
class deconv(torch.nn.Module):
def __init__(self, ci, co):
super(deconv, self).__init__()
self.upsample = torch.nn.ConvTranspose2d(ci, co, 2, stride=2)
self.conv1 = conv3x3_bn(ci, co)
self.conv2 = conv3x3_bn(co, co)
# recibe la salida de la capa anetrior y la salida de la etapa
# correspondiente del encoder
def forward(self, x1, x2):
x1 = self.upsample(x1)
diffX = x2.size()[2] - x1.size()[2]
diffY = x2.size()[3] - x1.size()[3]
x1 = F.pad(x1, (diffX, 0, diffY, 0))
# concatenamos los tensores
x = torch.cat([x2, x1], dim=1)
x = self.conv1(x)
x = self.conv2(x)
return x
class UNet(torch.nn.Module):
def __init__(self, n_classes=3, in_ch=1):
# lista de capas en encoder-decoder con número de filtros
c = [16, 32, 64, 128]
# primera capa conv que recibe la imagen
self.conv1 = torch.nn.Sequential(
conv3x3_bn(in_ch, c[0]),
conv3x3_bn(c[0], c[0]),
# capas del encoder
self.conv2 = encoder_conv(c[0], c[1])
self.conv3 = encoder_conv(c[1], c[2])
self.conv4 = encoder_conv(c[2], c[3])
# capas del decoder
self.deconv1 = deconv(c[3],c[2])
self.deconv2 = deconv(c[2],c[1])
self.deconv3 = deconv(c[1],c[0])
# útlima capa conv que nos da la máscara
self.out = torch.nn.Conv2d(c[0], n_classes, 3, padding=1)
def forward(self, x):
# encoder
x1 = self.conv1(x)
x2 = self.conv2(x1)
x3 = self.conv3(x2)
x = self.conv4(x3)
# decoder
x = self.deconv1(x, x3)
x = self.deconv2(x, x2)
x = self.deconv3(x, x1)
x = self.out(x)
return x
model = UNet()
output = model(torch.randn((10,1,394,394)))
torch.Size([10, 3, 394, 394])
Fit de 1 muestra
Para comprobar que todo funciona vamos a hacer el fit de una sola muestra. Para optimizar la red usamos la función de pérdida BCEWithLogitsLoss
, que aplicará la función de activación sigmoid
a las salidas de la red (para que estén entre 0 y 1) y luego calcula la función binary cross entropy
device = "cuda" if torch.cuda.is_available() else "cpu"
def fit(model, X, y, epochs=1, lr=3e-4):
optimizer = torch.optim.Adam(model.parameters(), lr=lr)
criterion = torch.nn.BCEWithLogitsLoss()
X, y = X.to(device), y.to(device)
for epoch in range(1, epochs+1):
y_hat = model(X)
loss = criterion(y_hat, y)
print(f"Epoch {epoch}/{epochs} loss {loss.item():.5f}")
img_tensor = torch.tensor(img).unsqueeze(0).unsqueeze(0)
mask_tensor = torch.tensor(mask_oh).permute(2, 0, 1).unsqueeze(0)
img_tensor.shape, mask_tensor.shape
(torch.Size([1, 1, 394, 394]), torch.Size([1, 3, 394, 394]))
fit(model, img_tensor, mask_tensor, epochs=20)
Ahora podemos generar predicciones para obtener máscaras de segmentación
with torch.no_grad():
output = model(img_tensor.to(device))[0]
pred_mask = torch.argmax(output, axis=0)
fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(30,10))
Entrenando con todo el dataset
Una vez hemos validado que nuestra red es capaz de hacer el fit de una imágen, podemos entrenar la red con todo el dataset.
class Dataset(torch.utils.data.Dataset):
def __init__(self, X, y, n_classes=3):
self.X = X
self.y = y
self.n_classes = n_classes
def __len__(self):
return len(self.X)
def __getitem__(self, ix):
img = np.load(self.X[ix])
mask = np.load(self.y[ix])
img = torch.tensor(img).unsqueeze(0)
mask = (np.arange(self.n_classes) == mask[...,None]).astype(np.float32)
return img, torch.from_numpy(mask).permute(2,0,1)
dataset = {
'train': Dataset(imgs[:-100], masks[:-100]),
'test': Dataset(imgs[-100:], masks[-100:])
len(dataset['train']), len(dataset['test'])
(325, 100)
dataloader = {
'train': torch.utils.data.DataLoader(dataset['train'], batch_size=16, shuffle=True, pin_memory=True),
'test': torch.utils.data.DataLoader(dataset['test'], batch_size=32, pin_memory=True)
imgs, masks = next(iter(dataloader['train']))
imgs.shape, masks.shape
(torch.Size([16, 1, 394, 394]), torch.Size([16, 3, 394, 394]))
from tqdm import tqdm
def fit(model, dataloader, epochs=100, lr=3e-4):
optimizer = torch.optim.Adam(model.parameters(), lr=lr)
criterion = torch.nn.BCEWithLogitsLoss()
hist = {'loss': [], 'iou': [], 'test_loss': [], 'test_iou': []}
for epoch in range(1, epochs+1):
bar = tqdm(dataloader['train'])
train_loss, train_iou = [], []
for imgs, masks in bar:
imgs, masks = imgs.to(device), masks.to(device)
y_hat = model(imgs)
loss = criterion(y_hat, masks)
ious = iou(y_hat, masks)
bar.set_description(f"loss {np.mean(train_loss):.5f} iou {np.mean(train_iou):.5f}")
bar = tqdm(dataloader['test'])
test_loss, test_iou = [], []
with torch.no_grad():
for imgs, masks in bar:
imgs, masks = imgs.to(device), masks.to(device)
y_hat = model(imgs)
loss = criterion(y_hat, masks)
ious = iou(y_hat, masks)
bar.set_description(f"test_loss {np.mean(test_loss):.5f} test_iou {np.mean(test_iou):.5f}")
print(f"\nEpoch {epoch}/{epochs} loss {np.mean(train_loss):.5f} iou {np.mean(train_iou):.5f} test_loss {np.mean(test_loss):.5f} test_iou {np.mean(test_iou):.5f}")
return hist
model = UNet()
hist = fit(model, dataloader, epochs=30)
import pandas as pd
df = pd.DataFrame(hist)
Transfer Learning
Podemos mejorar nuestros resultados si en vez de entrenar nuestra UNet
desde cero utilizamos una red ya entrenada gracias al transfer learning
. Para ello usaremos ResNet
como backbone
en el encoder
de la siguiente manera.
import torchvision
class out_conv(torch.nn.Module):
def __init__(self, ci, co, coo):
super(out_conv, self).__init__()
self.upsample = torch.nn.ConvTranspose2d(ci, co, 2, stride=2)
self.conv = conv3x3_bn(ci, co)
self.final = torch.nn.Conv2d(co, coo, 1)
def forward(self, x1, x2):
x1 = self.upsample(x1)
diffX = x2.size()[2] - x1.size()[2]
diffY = x2.size()[3] - x1.size()[3]
x1 = F.pad(x1, (diffX, 0, diffY, 0))
x = self.conv(x1)
x = self.final(x)
return x
class UNetResnet(torch.nn.Module):
def __init__(self, n_classes=3, in_ch=1):
self.encoder = torchvision.models.resnet18(pretrained=True)
if in_ch != 3:
self.encoder.conv1 = torch.nn.Conv2d(in_ch, 64, kernel_size=7, stride=2, padding=3, bias=False)
self.deconv1 = deconv(512,256)
self.deconv2 = deconv(256,128)
self.deconv3 = deconv(128,64)
self.out = out_conv(64, 64, n_classes)
def forward(self, x):
x_in = torch.tensor(x.clone())
x = self.encoder.relu(self.encoder.bn1(self.encoder.conv1(x)))
x1 = self.encoder.layer1(x)
x2 = self.encoder.layer2(x1)
x3 = self.encoder.layer3(x2)
x = self.encoder.layer4(x3)
x = self.deconv1(x, x3)
x = self.deconv2(x, x2)
x = self.deconv3(x, x1)
x = self.out(x, x_in)
return x
model = UNetResnet()
output = model(torch.randn((10,1,394,394)))
torch.Size([10, 3, 394, 394])
model = UNetResnet()
hist = fit(model, dataloader, epochs=30)
import pandas as pd
df = pd.DataFrame(hist)
En este caso observamos como la red converge más rápido, sin embargo no obtenemos una gran mejora de prestaciones ya que nuestro dataset es muy pequeño y la naturaleza de las imágenes es muy distinta a las utilizadas para entrenar ResNet
. Podemos generar máscaras para imágenes del dataset de test de la siguiente manera.
import random
with torch.no_grad():
ix = random.randint(0, len(dataset['test'])-1)
img, mask = dataset['test'][ix]
output = model(img.unsqueeze(0).to(device))[0]
pred_mask = torch.argmax(output, axis=0)
fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(30,10))
ax2.imshow(torch.argmax(mask, axis=0))
En este post hemos visto como podemos implementar y entrenar una red convolucional para llevar a cabo la tarea de segmentación semántica. Esta tarea consiste en clasificar todos y cada uno de los píxeles en una imagen. De esta manera podemos producir máscaras de segmentación que nos permiten localizar los diferentes objetos presentes en una imagen de forma mucho más precisa que la que podemos conseguir con la detección de objetos. Este tipo de tarea puede utilizarse en aplicaciones como la conducción autónoma o sistemas de diagnóstico médico, como hemos visto en el ejemplo de este post.