Publications

* denotes equal contribution.

2024

Non-autoregressive Sequence-to-Sequence Vision-Language Models

Kunyu Shi, Qi Dong , Luis Goncalves , Zhuowen Tu , and Stefano Soatto

In Computer Vision and Pattern Recognition (CVPR) , 2024

arXiv Code
Enhancing Vision-Language Pre-training with Rich Supervisions

Yuan Gao* , Kunyu Shi*, Pengkai Zhu , Edouard Belval , Oren Nuriel , Srikar Appalaraju , Shabnam Ghadar , Vijay Mahadevan , Zhuowen Tu , and Stefano Soatto

In Computer Vision and Pattern Recognition (CVPR) , 2024

arXiv

2023

Musketeer (All for One, and One for All): A Generalist Vision-Language Model with Task Explanation Prompts

Zhaoyang Zhang , Yantao Shen , Kunyu Shi, Zhaowei Cai , Jun Fang , Siqi Deng , Hao Yang , Davide Modolo , Zhuowen Tu , and Stefano Soatto

arXiv preprint arXiv:2305.07019, 2023

arXiv

2020

Learning Instance Occlusion for Panoptic Segmentation

Justin Lazarow* , Kwonjoon Lee* , Kunyu Shi*, and Zhuowen Tu

In Computer Vision and Pattern Recognition (CVPR) , Jun 2020

arXiv Code