最近発表された論文「ReconVLA」は、この問題の解決を試みた。私はこの論文を注意深く読み、その前提を徹底的に検証し、実装し拡張することの意味について深く考えた。その結果、ある点では感銘を受け、別の点では本当に困惑させられた。
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
hackernoon.com
Beyond ReconVLA: Annotation-Free Visual Grounding via Language-Attention Masked Reconstruction
