Visualización de datos genómicos utilizando grafos y la distancia deFermat.

Dia 2024-11-04 16:15:00-03:00
Hora 2024-11-04 16:15:00-03:00
LugarSalón de seminarios 1 de FCIEN

Visualización de datos genómicos utilizando grafos y la distancia deFermat.

Micaela Long (IMERL, Facultad de Ingeniería)

El genoma humano consiste en más de tres mil millones de pares de bases
(sitios en el ADN), lo que convierte a la alta dimensionalidad en uno de
los mayores desafíos de la genética de poblaciones actual.

Herramientas como el *análisis de componentes principales* (PCA) y métodos
no lineales como  *t-Distributed Stochastic Neighbor Embedding*
(t-SNE) y *Uniform
Manifold Approximation and Projection* (UMAP) son habitualmente utilizados
para reducir la dimensión de los datos, visualizar la variación genética y
hacer inferencia sobre la estructura de las poblaciones.

Sin embargo, estos métodos tienen dificultades en la conservación de
estructuras locales y globales presentes en el espacio original, lo que
obstaculiza el análisis y muchas veces lleva a conclusiones erróneas.

En esta charla presentaré un trabajo en curso en el marco de mi tesis de
maestría, que consiste en el desarrollo de un método basado en grafos para
el análisis y visualización de datos genómicos. La construcción del grafo
se basa en la distancia de Fermat, y su posterior embedding (representación
en un espacio vectorial de dimensión dos) es realizado a partir de una red
neuronal llamada *Node2vec*.

Este enfoque pretende reducir la dimensión de los datos, minimizando la
distorsión de estructuras locales y globales, y con particular interés en
la correcta representación de individuos mezclados.