PFC

Caracterització visual per generació automàtica de text

Work default illustration

Supervisor/s

Information

  • If you are interested in the proposal, please contact with the supervisors.

Description

Antecedents: En els últims anys, els mètodes de detecció d'objectes en imatges han experimentat una dramàtica millora: ara és possible predir amb un alt nivell de certesa la presencia de milers d'objectes diferents en imatges (podeu fer-vos-en una idea mirant la web Clarifai). Aquesta millora ha permès a la comunitat científica i a les grans empreses d'Internet com Google, Yahoo! o Facebook afrontar objectius més ambiciosos: generar automàticament descripcions textuals en llenguatge natural, és a dir, tal com ho faria una persona, per a fotografies disponibles en xarxes socials com Flickr o Instagram.



Objectius: Dins el marc d'un projecte europeu en el que s'ha desenvolupant un sistema de generació automàtica de descripcions textuals per a fotografies (projecte "Visual Sense"), l'objectiu d'aquest projecte consisteix en explorar algunes de les diferents representacions visuals existents a la literatura de visió per computador (per a les quals hi ha codi disponible). En particular, es vol investigar la possibilitat que diferents representacions puguin ser útils per a diferents aspectes de la generació de descripcions textuals; per exemple, una representació visual podria ser més útil per a determinar el lloc on passa l'acció, i una altra per als actors implicats.

Tècniques experimentals o metodologia que s'utilitzarà i breu pla de treball a realitzar: L'estudiant haurà d'utilitzar diferents algoritmes de representació d'imatges que es determinaran conjuntament amb el director de projecte. Aquesta tasca requerirà coneixement de llenguatges de programació com Python, C++ o Matlab, així com l'adquisició d'una comprensió general dels algoritmes utilitzats. Finalment, les representacions visuals generades amb els mètodes seleccionats s'avaluaran per la tasca de generació de descripcions en llenguatge natural.

The work is under the scope of the following projects:

  • ViSen: Visual Sense, Tagging visual data with semantic descriptions (web)