new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Apr 13

Submitted by

HideOnBush

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

UWaterloo

University of Waterloo

Submitted by

limuloo1999

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

Zhejiang University

Submitted by

taesiri

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

·
23 authors

Submitted by

weikaih

WildDet3D: Scaling Promptable 3D Detection in the Wild

allenai

Submitted by

taesiri

EXAONE 4.5 Technical Report

·
58 authors

Submitted by

Constant8868

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

BeijingJiaoTong

北京交通大学

Submitted by

Yongxin-Guo

Structured Causal Video Reasoning via Multi-Objective Alignment

UniversityofWA

University of Western Australia

Submitted by

taesiri

ELT: Elastic Looped Transformers for Visual Generation

deepmind

Submitted by

taesiri

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

·
6 authors

Submitted by

taesiri

CT-1: Vision-Language-Camera Models Transfer Spatial Reasoning Knowledge to Camera-Controllable Video Generation

·
13 authors

Submitted by

coldhyuk

Cross-Modal Emotion Transfer for Emotion Editing in Talking Face Video

UNIST

Ulsan National Institute of Science and Technology