Accepted Papers

Outstanding Paper Award

Viewpoint Textual Inversion: Discovering Scene Representations and 3D View Control in 2D Diffusion Models

James Burgess, Kuan-Chieh Wang, Serena Yeung-Levy

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Uday Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu

Comparison Visual Instruction Tuning

Wei Lin, Muhammad Jehanzeb Mirza, Sivan Doveh, Rogerio Feris, Raja Giryes, Sepp Hochreiter, Leonid Karlinsky

CinePile: A Long Video Question Answering Dataset and Benchmark

Ruchit Rawal, Khalid Saifullah, Ronen Basri, David Jacobs, Gowthami Somepalli, Tom Goldstein

EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval

Thomas Hummel, Shyamgopal Karthik, Iuliana Georgescu, Zeynep Akata

CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen

Revisiting Few-Shot Object Detection with Vision-Language Models

Anish Madan, Neehar Peri, Shu Kong, Deva Ramanan

BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models

Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Tae-Hyun Oh

TopViewRS: Vision-Language Models as Top-View Spatial Reasoners

Chengzu Li, Caiqi Zhang, Han Zhou, Nigel Collier, Anna Korhonen, Ivan Vulić

MultiTrust: A Comprehensive Benchmark on the Trustworthiness of Multimodal Large Language Models

Yichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu

Can Visual Foundation Models Achieve Long-term Point Tracking?

Görkay Aydemir, Weidi Xie, Fatma Guney

Bridging Episodes and Semantics: A Novel Framework for Long-Form Video Understanding

Gueter Josmy Faure, Jia-Fong Yeh, Min-Hung Chen, Hung-Ting Su, Winston H. Hsu, Shang-Hong Lai

KiVA: Kid-inspired Visual Analogies for Testing Large Multimodal Models

Eunice Yiu, Maan Qraitem, Charlie Wong, Anisa Noor Majhi, Yutong Bai, Shiry Ginosar, Alison Gopnik, Kate Saenko

ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty

Xindi Wu, Dingli Yu, Yangsibo Huang, Olga Russakovsky, Sanjeev Arora

Do Pre-trained Vision-Language Models Encode Object States?

Kaleb Newman, Shijie Wang, Yuan Zang, David Heffren, Chen Sun

LLM-wrapper: black-box semantic-aware adaptation of Vision-Language foundation models

Amaia Cardiel, Eloi Zablocki, Oriane Siméoni, Elias Ramzi, Matthieu Cord

Detect, Describe, Discriminate: Moving Beyond VQA for MLLM Evaluation

Manu Gaur, Darshan Singh S, Makarand Tapaswi

Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities

Shivam Chandhok, Wan-Cyuan Fan, Leonid Sigal

Can Visual Language Models Replace OCR-Based Visual Question Answering Pipelines in Production? A Case Study in Retail.

Bianca Lamm, Janis Keuper

Visual Prompt Engineering for Medical Vision Language Models in Radiology

Stefan Denner, Markus Ralf Bujotzek, Dimitrios Bounias, David Zimmerer, Raphael Stock, Paul F Jaeger, Klaus Maier-Hein

Bootstrap Segmentation Foundation Model under Distribution Shift via Object-Centric Learning

Luyao Tang, Yuxuan Yuan, Chaoqi Chen, Kunze Huang, Xinghao Ding, Yue Huang

Annotation-Free Semantic Segmentation with Vision Foundation Models

Soroush Seifi, Daniel Olmeda Reino, Fabien Despinoy, Rahaf Aljundi

Zero-to-Hero: Enhancing Zero-Shot Novel View Synthesis via Attention Map Filtering.

Ido Sobol, Chenfeng Xu, Or Litany

INQUIRE: A Natural World Text-to-Image Retrieval Benchmark

Edward Vendrow, Omiros Pantazis, Alexander Shepard, Gabriel Brostow, Kate E. Jones, Oisin Mac Aodha, Sara Beery, Grant Van Horn

How to Determine the Preferred Image Distribution of a Black-Box Vision-Language Model at Inference Time?

Saeid Asgari, Joseph George Lambourne, Alana Mongkhounsavath

PlotTwist: Vision-language Models Struggle with Reasoning Over Mathematical Plots

Pulkit Madan, Sanjay Haresh, Apratim Bhattacharyya, Litian Liu, Reza Pourreza, Sunny Panchal, Roland Memisevic

Adversarial Attacks on Text-Recognizable Foundation Models: Optimized Search Space Reduction via Skeletonization

Haruto Namura, Masatomo Yoshida, Nicola Adami, Masahiro Okuda

Vision-Language Models Do Not Understand Negation

Kumail Alhamoud, Shaden Naif Alshammari, Yonglong Tian, Guohao Li, Philip Torr, Yoon Kim, Marzyeh Ghassemi

Analyzing CLIP’s Performance Limitations in Multi-Object Scenarios: A Controlled High-Resolution Study

Reza Abbasi, Ali Nazari, Aminreza Sefid, Mohammadali Banayeeanzade, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah

ComTie: Fine-Grained Compositional Metric for Text-to-Image Evaluation

Amirmohammad Izadi, Seyed Mohammad Hadi Hosseini, Ali Abdollahi, Armin Saghafian, Mahdieh Soleymani Baghshah

Page updated

Google Sites

Report abuse

	
		OSZAR »