Исследователи разработали верификацию рассуждений на основе схем (CRV), новую методику для проверки и исправления рассуждений больших языковых моделей (LLM). CRV отслеживает внутренние "схемы рассуждений" внутри LLM, строя вычислительный граф из его внутренних активаций. Этот метод точно обнаруживает ошибки рассуждений, наблюдая за этими вычислительными трассировками. Ключевым прорывом является способность использовать это понимание для вмешательств в реальном времени для исправления ошибочных рассуждений. Это достижение может значительно повысить надежность и достоверность приложений искусственного интеллекта, особенно в корпоративных условиях. Существующие методы проверки рассуждений LLM, такие как подходы "черного ящика" и "серого ящика", не позволяют объяснить основную причину вычислительных сбоев. CRV, как подход "белого ящика", рассматривает LLM как выполняющие скрытые алгоритмы внутри специализированных нейронных схем. Сделав LLM интерпретируемыми с помощью транскодеров, CRV может наблюдать, как информация проходит через эти схемы. Затем он извлекает "структурные отпечатки пальцев" из графа атрибуции этого потока для прогнозирования правильности рассуждений. CRV продемонстрировала превосходную производительность по сравнению с существующими методами в обнаружении ошибок в различных наборах данных. Важно отметить, что эта методика может точно определять конкретные вычислительные недостатки, позволяя осуществлять целевые вмешательства, которые исправляют ошибки на лету, как показано в тематическом исследовании, связанном с ошибкой порядка операций. Эта работа представляет собой важный шаг на пути к более строгой науке об интерпретируемости и контроле искусственного интеллекта.
t.me
AI и ML Дайджест в Телеграмм канале @ai_ml_news_ru
venturebeat.com
Meta researchers open the LLM black box to repair flawed AI reasoning
Create attached notes ...
