Coin3D Optimizes Training and Evaluation for High-Fidelity 3D Generation

Coin3D trains on the LVIS subset of Objaverse with 16-view rendering and proxy voxelization. Evaluations include CLIP scores, ImageReward, and GPTEvals3D. User studies compare its output against existing methods. The model trains with a dual 3D UNet and volume-SDS loss on an Nvidia A100-80G, enabling high-fidelity 3D reconstruction in just minutes, optimizing both quality and efficiency.