За пределами ReconVLA: визуальное заземление без аннотаций через языково-внимательную маскированную реконструкцию

Недавняя статья под названием ReconVLA попыталась решить эту проблему. Я потратил значительное количество времени, внимательно читая ее, проверяя ее предположения и размышляя о том, что будет означать ее реализация и расширение. То, что я обнаружил, в некотором роде впечатлило меня, а в других - искренне обеспокоило.