최근 논문인 ReconVLA가 이 문제를 해결하려 시도했습니다. 저는 이 논문을 주의 깊게 읽고, 그 가정을 엄격하게 검증하며, 이를 구현하고 확장하는 것이 무엇을 의미하는지 생각하는 데 상당한 시간을 보냈습니다. 그 결과, 어떤 점에서는 감명을 받았지만, 다른 점에서는 진심으로 우려를 느꼈습니다.
bsky.app
Hacker & Security News on Bluesky @hacker.at.thenote.app
hackernoon.com
Beyond ReconVLA: Annotation-Free Visual Grounding via Language-Attention Masked Reconstruction
Create attached notes ...
