Недавняя статья под названием ReconVLA попыталась решить эту проблему. Я потратил значительное количество времени, внимательно читая ее, проверяя ее предположения и размышляя о том, что будет означать ее реализация и расширение. То, что я обнаружил, в некотором роде впечатлило меня, а в других - искренне обеспокоило.
hackernoon.com
Beyond ReconVLA: Annotation-Free Visual Grounding via Language-Attention Masked Reconstruction
Create attached notes ...
