AI и ML Новости на русском Заметка

AI и ML Новости на русском

"AI & ML News" - это коллекция технологических заметок, посвященных искусственному интеллекту и машинному обучению. Здесь собраны актуальные новости и обзоры последних разработок в области ИИ и МО. Лента охватывает широкий спектр тем, включая новые алгоритмы, приложения и исследования. Освещаются тенденции в индустрии и влияние ИИ и МО на различные сектора экономики. Материалы затрагивают такие области, как нейронные сети, глубокое обучение и обработка естественного языка. Рассматриваются примеры применения ИИ в здравоохранении, финансах и других отраслях. Публикации будут интересны как специалистам - разработчикам и аналитикам данных, так и всем, кто интересуется развитием технологий ИИ. Затрагиваются вопросы этики ИИ и конфиденциальности данных. Лента знакомит читателей с ключевыми игроками рынка ИИ - от крупных компаний до многообещающих стартапов. Представлена информация об инструментах и платформах для разработки ИИ-систем. "AI & ML News" стремится предоставлять объективную и актуальную информацию о развитии искусственного интеллекта и машинного обучения.

Трэд заметок

В 2017 году исследователи представили модель Transformer в статье «Attention is All You Need», совершив революцию в обработке естественного языка (NLP). Предыдущие модели, такие как RNN и LSTM, обрабатывали слова последовательно, что ограничивало их способность обрабатывать длинные предложения, замедляло обучение и препятствовало параллельной обработке. Transformer решил эти проблемы, используя механизм собственного внимания, позволяющий модели сосредотачиваться на важных словах независимо от их положения в предложении. Это сделало Transformer более быстрым и масштабируемым, особенно благодаря использованию параллелизации. Это устранило необходимость в последовательной обработке слов и улучшило понимание сложных отношений между словами. Архитектура кодировщика-декодировщика модели эффективно преобразует входные последовательности в выходные данные, такие как переводы. Такие ключевые функции, как многоголовое внимание, позволяют модели одновременно захватывать различные аспекты значения в предложении. Декодер генерирует переводы пошагово, фокусируясь только на предыдущих словах, что обеспечивает точность. Эта архитектура стала основой для многих современных моделей, таких как BERT и GPT, значительно улучшив производительность в различных задачах НЛП».
CdXz5zHNQW_IT3IvF71Jb.jpeg
В блоге обсуждается развитие технологий поиска за пределами текста с включением изображений и видео в возможности поиска с помощью многомодальных вложений. Традиционные корпоративные поисковые системы были разработаны для запросов на основе текста, что ограничивает их способность обрабатывать визуальный контент. Благодаря интеграции обработки естественного языка (NLP) и многомодальных вложений теперь можно выполнять семантический поиск в разных режимах, позволяя пользователям искать изображения и видео так же, как они делали бы это с текстом. В блоге показана система, которая может выполнять поиск с текстом в изображение, с текстом в видео и комбинированный поиск с использованием хранилища Google Cloud для хранения мультимедиа и BigQuery для индексирования. Для создания вложений файлов мультимедиа используется модель многомодального вложения, что позволяет эффективно выполнять поиск по схожести. Архитектура поддерживает беспрепятственный поиск в разных режимах, делая обнаружение контента более интуитивным. Входной текст пользователя преобразуется во вложение, а затем выполняется векторный поиск, чтобы сопоставить запрос с хранящимися данными мультимедиа. Наконец, пользователю показываются результаты с наиболее релевантными URI изображений или видео и их показателями схожести. Этот подход улучшает поисковый опыт, открывая новые возможности для поиска визуального контента.
CdXz5zHNQW_1XAuQPcNYE.jpeg
Генератор файла README с искусственным интеллектом — это новый инструмент, разработанный, чтобы помочь разработчикам создавать высококачественные файлы README для их проектов GitHub. Этот инструмент упрощает процесс документирования, генерируя структурированные профессионально выглядящие файлы README, используя основную информацию о проекте. Он предлагает интеллектуальное форматирование с Markdown в стиле GitHub и предоставляет различные шаблоны, подходящие для разных типов проектов. Инструмент также предлагает соответствующие разделы в зависимости от характера вашего проекта и улучшает язык для понятности и взаимодействия. Используя этот инструмент, разработчики могут сэкономить время, улучшить видимость проекта и гарантировать, что их документация ясная, краткая и последовательная. Он поддерживает как создание новых файлов README с нуля, так и доработку существующих путем анализа текущего содержания и предложения улучшений. Пользователи могут просматривать и настраивать сгенерированное содержимое в соответствии с потребностями своего проекта, прежде чем передавать его в свой репозиторий GitHub, что облегчает понимание и внесение вклада в проект другим. В целом, это эффективный способ улучшить сотрудничество и более профессионально демонстрировать проекты.
CdXz5zHNQW_x8MllfWBsD.jpeg
Стремитесь погрузиться в мир машинного обучения, но математика и статистика немного пугают? Не беспокойтесь, вы не одиноки! Для многих начинающих специалистов по анализу данных эти темы кажутся устрашающими. Хорошая новость в том, что существует множество бесплатных онлайн-курсов, которые помогут вам заложить прочную основу.Coursera:Машинное обучение от Эндрю Нг: Этот легендарный курс не только познакомит вас с концепциями машинного обучения, но также обеспечит сильную математическую основу. Математика для машинного обучения от Имперского колледжа Лондона: если вы хотите глубоко погрузиться в математические концепции, этот курс — отличный выбор.edX:Вводный курс по машинному обучению от Microsoft: этот курс предлагает сбалансированный подход, объединяя основы машинного обучения с необходимыми математическими знаниями. Основы науки о данных от Колумбийского университета: в этом курсе представлен более широкий взгляд на науку о данных, включая статистику и машинное обучение. Массачусетский технологический институт OpenCourseWare:Вводный курс по алгоритмам: хотя этот курс не посвящен строго машинному обучению, он закладывает прочную основу в алгоритмах и структурах данных, что необходимо для понимания концепций машинного обучения. Вероятность и случайные величины: глубокое погружение в теорию вероятностей имеет решающее значение для понимания многих алгоритмов машинного обучения.Khan Academy:Линейная алгебра: всеобъемлющий ресурс для изучения линейной алгебры, фундаментальной темы в машинном обучении.Математический анализ: еще одна важная математическая концепция, подробно рассматриваемая в Khan Academy.Статистика и теория вероятностей: прочное понимание статистики и теории вероятностей имеет решающее значение для анализа данных и машинного обучения.Помните: хотя эти курсы предлагают ценные ресурсы, постоянная практика и практический опыт имеют решающее значение для освоения этих тем. Начните с основ и постепенно увеличивайте сложность по мере приобретения уверенности. С преданностью и правильными ресурсами вы станете на верном пути к тому, чтобы стать опытным практиком в области машинного обучения.Счастливого обучения!
В 2024 году европейский сектор искусственного интеллекта продемонстрировал значительную устойчивость в привлечении венчурного капитала, и по состоянию на август 14 инвестиций превысили 100 млн долларов. Это контрастирует с непростой ситуацией для стартапов в целом, когда стало сложнее привлекать финансирование. Примечательно, что искусственный интеллект превратился в сильную область для инвестирования из-за высоких затрат, связанных с разработкой технологий ИИ, и жесткой конкуренции за таланты.Вот основные моменты из лучших сделок с ИИ в Европе в этом году:- Wayve: этот стартап из Кембриджа привлек 1,05 млрд долларов для совершенствования своей технологии автономного вождения, что стало крупнейшим раундом финансирования для компании, работающей в области ИИ в Европе. Wayve ориентируется на продажу своей технологии ИИ автопроизводителям, а не на самостоятельное производство транспортных средств.- Mistral: будучи крупным игроком в создании крупных языковых моделей, Mistral привлек более 1 млрд долларов через два значительных раунда финансирования на сумму 431 млн и 650 млн долларов. Компания делает упор на технологии с открытым исходным кодом, что привлекает предприятия и разработчиков.- Helsing: этот немецкий стартап, специализирующийся на ИИ для оборонных приложений, привлек 484 млн долларов. Его технология направлена на усовершенствование систем и возможностей обороны, особенно в свете геополитической напряженности в Европе.- Poolside: нацелившись на разработчиков программного обеспечения, Poolside привлек 400 млн долларов для разработки инструментов ИИ, которые оптимизируют процессы разработки программного обеспечения.- DeepL: известная своими переводческими сервисами на базе ИИ, DeepL привлек 320 млн долларов, сосредоточившись на рынке B2B с примерно 100 000 корпоративных клиентов.- H: ранее Holistic AI, этот стартап привлек 220 млн долларов в качестве посевного раунда, намереваясь разработать агентов ИИ для автоматизации задач и принятия решений.- Flo Health: приложение для женского здоровья из Лондона привлекло 200 млн долларов, став первым чисто цифровым приложением для здравоохранения, которое достигло оценки более 1 млрд долларов.- Pigment: этот парижский стартап, который предоставляет решения для планирования корпоративных ресурсов, привлек 145 млн долларов, интегрировав ИИ в свои предложения.В целом, европейский ландшафт искусственного интеллекта характеризуется значительными раундами финансирования и акцентом на базовые технологии, при этом такие города, как Париж, становятся ключевыми центрами разработки ИИ».
CdXz5zHNQW_1dHclHl6ue.jpeg
ОбзорКак инженер машинного обучения в Substack, вы будете играть важную роль в разработке и внедрении передовых решений машинного обучения для расширения наших продуктов. Вы станете частью динамичной команды, тесно сотрудничая с инженерами по программному обеспечению и специалистами по обработке данных для внедрения моделей машинного обучения в нашу кодовую базу и их бесшовной интеграции в наши продукты. Эта должность дает прекрасную возможность повлиять на будущее нашего технологического стека и внести значительный вклад в нашу компанию.Пакет компенсаций Substack включает в себя конкурентоспособную на рынке заработную плату, доли в капитале компании для всех, кто работает на полную ставку, и исключительные льготы. Диапазон заработной платы за наличные на этой должности составляет от 185 000 до 240 000 долларов США. Окончательные суммы предложения определяются множеством факторов, включая опыт и знания кандидата, и могут отличаться от указанных выше сумм.Обязанности- Руководить разработкой подхода Substack к принятию машинного обучения и интеграции инструментов и технологий машинного обучения - Сотрудничать с кросс-функциональными командами для выявления и определения возможностей машинного обучения, которые соответствуют нашей дорожной карте продукта - Разрабатывать, обучать и внедрять модели машинного обучения с использованием Python и популярных фреймворков машинного обучения - Использовать готовые инструменты и системы машинного обучения, чтобы ускорить способность Substack внедрять функциональные возможности машинного обучения в свои продукты и рабочие процессы - Интегрировать модели и конвейеры машинного обучения в наши основные приложения JavaScript / TypeScript - Оптимизировать и настраить модели машинного обучения для повышения производительности, масштабируемости и эффективности - Проектировать и внедрять конвейеры данных для предварительной обработки данных, разработки функций и обучения моделей - Развертывать и владеть интегрированными продуктами и внутренними инструментамиТребования- Более 7 лет соответствующего опыта работы с системами данных и машинного обучения - Отличные навыки программирования на Python и опыт работы с библиотеками Python, обычно используемыми в машинном обучении (например, Transformers и Tensorflow) - Глубокое понимание алгоритмов машинного обучения, глубокого обучения и статистического моделирования - Независимость и автономность. Наша компания слишком мала для микроменеджмента, и мы ожидаем, что каждый сотрудник несет ответственность за свою работу и может быть лидером - Высокий уровень требований к себе и другим при работе с производственными системами - Умение сотрудничать с различными заинтересованными сторонами, внося в команду свой уникальный опыт и знанияЖелательно иметь- Опыт работы с Node.js и JavaScript для бесшовной интеграции моделей машинного обучения в нашу кодовую базу - Знание облачных платформ (например, AWS или Modal) - Опыт работы с веб-приложениями для потребителей, обеспечивающими масштабируемостьКомпания Substack предоставляет равные возможности трудоустройства. Все кандидаты будут рассматриваться для приема на работу независимо от расы, цвета кожи, религии, пола (включая беременность, сексуальную ориентацию, гендерную идентичность или статус трансгендера), возраста, национального происхождения, статуса ветерана или инвалидности. Мы ищем людей, увлеченных развитием независимого самовыражения и созданием лучшей бизнес-модели для творческих людей. Если вы хотите увидеть, какими могут стать средства массовой информации, сообщества и контент при освобождении от рекламных моделей, и у вас есть навыки и опыт, чтобы внести свой вклад, мы будем рады встретиться с вами.
Блокчейн и искусственный интеллект (ИИ) — это две быстро развивающиеся технологии, способные произвести революцию во многих секторах. Хотя традиционно их считают несовместимыми, у них есть уникальные преимущества: блокчейн обеспечивает безопасность и прозрачность, а ИИ превосходно справляется с обработкой больших объемов данных и обучением на них. Блокчейн гарантирует целостность данных с помощью децентрализованных, неподдающихся взлому записей, а ИИ привносит возможности машинного обучения и принятия решений. При объединении блокчейн может защищать модели ИИ с помощью их шифрования и распространения, а также обеспечивать прозрачность процесса принятия решений ИИ. Такая интеграция может улучшить защиту конфиденциальности: блокчейн управляет доступом к конфиденциальным данным, используемым ИИ. Эти две технологии способны революционизировать такие отрасли, как логистика, финансы, здравоохранение и образование, предлагая более эффективные системы, персонализированные услуги и большую безопасность. Остаются проблемы: от правовых вопросов до технических барьеров, но потенциальные преимущества делают синтез блокчейна и ИИ многообещающим шагом к более безопасному и инновационному будущему».
CdXz5zHNQW_EE7h46XUKP.jpeg
DBSCAN — это алгоритм кластеризации, который идентифицирует кластеры в данных на основе плотности точек. Он полезен для работы с помехами и обнаружения выбросов. В отличие от k-средних, DBSCAN не требует указания количества кластеров заранее, что дает ему преимущество во многих ситуациях. Алгоритм использует два ключевых параметра: радиус (эпсилон) и минимальное количество соседей (N), необходимых для формирования центральной точки. Центральные точки вместе с соседними точками образуют кластеры, а точки, которые не отвечают этим критериям, помечаются как шум или выбросы. Реализация DBSCAN начинается с функции расстояния, часто евклидовой, для вычисления расстояний между точками. Алгоритм перебирает все точки, группируя их в кластеры на основе их близости друг к другу. Точки, у которых недостаточно соседей, классифицируются как шум. После реализации DBSCAN производительность можно проверить, сравнив ее с результатами библиотеки sklearn, которая должна выдавать идентичные кластеры. Важно точно настроить значения эпсилона и N, поскольку они сильно влияют на результаты кластеризации. Статья приводит пример с синтетическими данными для визуализации процесса кластеризации.
CdXz5zHNQW_2T09iCSRkR.png
Около 200 сотрудников отдела исследований в области искусственного интеллекта Google DeepMind подписали письмо, настоятельно прося компанию расторгнуть контракты с военными организациями.Письмо от 16 мая, опубликованное в TIME, подчеркивает растущую обеспокоенность внутри организации по поводу этических последствий использования ее технологии ИИ для ведения цифровой войны.Подписанты представляют собой около 5% рабочей силы DeepMind, выступая против контрактов компании на предоставление услуг ИИ и облачных вычислений различным правительствам, включая израильские вооруженные силы в рамках проекта Nimbus.Работники Google обеспокоены тем, что их ИИ будет использован в военных действиях.Работники утверждают, что такое участие нарушает собственные принципы Google в отношении ИИ, которые гласят, что компания не будет разрабатывать приложения ИИ, которые причиняют «ущерб в целом» или способствуют разработке оружия и организации наблюдения.Хотя в письме воздерживаются от упоминания какого-либо конкретного геополитического конфликта, оно ссылается на отчеты о том, что израильские военные операции используют ИИ для наблюдения и нацеливания.Хотя DeepMind исторически придерживался политики запрета использования своей технологии в военных целях, после приобретения в 2014 году компания все больше сблизилась с более широкой деятельностью Google, что привело к более тесным связям с военными контрактами.Несмотря на требования письма, включая обзор технологий DeepMind, используемых военными клиентами, и создание нового органа управления, Google не предпринял никаких решительных действий. TechRadar Pro попросил компанию прокомментировать внутреннее письмо от сотрудников, но мы не получили немедленного ответа.Один из подписавших письмо выразил свое недовольство ответом Google на жалобу в TIME, заявив, что заявление компании о проекте Nimbus «настолько специально неопределенное, что нам всем не стало известно, что оно на самом деле означает».
CdXz5zHNQW_dufSnWtrrX.jpeg
Автоматизация долгое время была краеугольным камнем CRM-систем, помогая отделам продаж, маркетинга и обслуживания клиентов оптимизировать повторяющиеся задачи. Однако интеграция ИИ значительно расширила возможности CRM, произведя революцию в таких процессах, как управление потенциальными клиентами, предиктивная аналитика и обслуживание клиентов. Инструменты ИИ в CRM, такие как Einstein от Salesforce, анализируют большие объемы данных для прогнозирования конверсий потенциальных клиентов, что позволяет отделам продаж сосредоточиться на перспективных клиентах с высоким потенциалом. Чат-боты на базе ИИ улучшают обслуживание клиентов, предоставляя быстрые персонализированные ответы и при необходимости направляя сложные случаи агентам. Кроме того, ИИ помогает предприятиям лучше понять свою аудиторию, анализируя поведение клиентов и создавая подробные портреты покупателей. Также улучшилось прогнозирование продаж, поскольку ИИ может анализировать исторические и текущие данные для прогнозирования результатов продаж и выявления тенденций. Расширив возможности автоматизации с помощью ИИ, CRM-системы теперь предлагают более контекстуально-зависимую и эффективную автоматизацию задач, в конечном итоге повышая производительность. Несмотря на эти достижения, человеческий опыт остается решающим фактором для успешного внедрения ИИ в CRM, что подчеркивает необходимость повышения квалификации и найма новых талантов.
CdXz5zHNQW_GEQ4HPEs5i.jpeg
Компания ElevenLabs, занимающаяся технологиями преобразования текста в речь, выпустила приложение для чтения, которое предлагает поддержку преобразования текста в речь для файлов PDF, файлов ePub, статей и многого другого. Приложение позволяет выбрать из множества голосовых помощников с искусственным интеллектом для озвучивания и является бесплатным для использования.Функция преобразования текста в речь — одна из лучших функций доступности на смартфонах. Она также удобна, если вы просто хотите прослушать контент вместо того, чтобы читать его (например, во время вождения или бега). К счастью, появилось новое приложение для чтения, которое обещает стать серьезным обновлением.ElevenLabs объявила о выпуске приложения ElevenLabs Reader для Android и iOS, которое обещает позволить вам слушать все на ходу. А именно, разработчик утверждает, что вы можете слушать файлы PDF, файлы ePub, текстовые файлы, статьи, информационные бюллетени или другой текстовый контент. Однако стоит отметить, что приложение не поддерживает вашу библиотеку Kindle.
CdXz5zHNQW_eLzyHpV3D2.jpeg
Статья Стивена Вольфрама исследует внутреннюю работу машинного обучения посредством минимальных моделей, стремясь упростить сложности ИИ. Он начинает с обсуждения того, как нейронные сети вдохновлены биологическими системами, но работают с использованием математических абстракций. Вольфрам подчеркивает важность понимания фундаментальных процессов машинного обучения, а не только фокусирования на результатах. Он использует клеточные автоматы как простую модель, чтобы проиллюстрировать, как из простых правил может возникнуть сложность. Сравнивая машинное обучение с этими системами, Вольфрам предполагает, что понимание базовых механизмов может привести к лучшему пониманию того, как функционирует ИИ. Он также затрагивает роль случайности и детерминизма в обучающих моделях, утверждая, что кажущееся непредсказуемое поведение может быть прослежено до простых детерминированных правил. Вольфрам подчеркивает необходимость новых парадигм для лучшего понимания истинной природы машинного обучения. Он также обсуждает ограничения текущих моделей ИИ, которые часто сильно зависят от данных, а не от понимания. Наконец, он призывает к более глубокому изучению минимальных моделей, чтобы выявить основные принципы, управляющие машинным обучением, что может привести к более надежным и интерпретируемым системам ИИ.
CdXz5zHNQW_LL4HTs3TLM.jpeg
SAM2 (Segment Anything 2) от Meta — это универсальная модель сегментации изображений, обученная на расширенном наборе данных из 11 миллионов изображений и 11 миллиардов масок, что делает ее чрезвычайно эффективной для широкого спектра задач сегментации. Несмотря на то, что SAM2 может хорошо сегментировать распространенные объекты, она может не справиться с редкими или узкоспециализированными задачами, что требует точной настройки для улучшения производительности на определенных наборах данных. В этом руководстве описано, как выполнить точную настройку SAM2 для пользовательских задач всего в 60 строках кода. Процесс включает загрузку SAM2, подготовку набора данных и использование простого сценария для загрузки изображений, сегментных масок и выбора случайных точек внутри этих масок. Тонкая настройка фокусируется на обучении декодера маски и, по желанию, кодировщика подсказки, одновременно замораживая кодировщик изображения. В руководстве также рассматривается настройка оптимизатора, использование обучения со смешанной точностью и запуск цикла обучения с пользовательскими функциями потерь для уточнения модели. Последний шаг включает сохранение точно настроенной модели и ее использование для вывода новых изображений, демонстрируя практическое применение SAM2 в специализированных задачах сегментации.
CdXz5zHNQW_dLgS4NZnT9.jpeg
Генераторы изображений на основе ИИ быстро развиваются, и несколько платформ недавно представили значительные обновления. Ideogram недавно запустила Ideogram 2.0, которая включает в себя значительные улучшения и новые функции, включая приложение для iOS и обширную поисковую библиотеку из более чем миллиарда пользовательских изображений. Эта версия позволяет пользователям иметь больше контроля над генерируемыми ИИ изображениями, предлагая разнообразные стили, такие как Реалистичный, который создает реалистичные изображения, и Дизайн, который отличается точностью текста в изображениях. Кроме того, есть стили 3D, Аниме и Общий, каждый из которых отвечает разным творческим потребностям. Ideogram 2.0 также улучшила свои инструменты Magic Prompt и Describe, позволяя создавать более подробные расширения запросов и генерировать описания изображений. Запуск включает бета-версию API, позволяющую интегрировать с другими приложениями, подобно тому, как DALL-E и Flux встроены в другие платформы. С этими обновлениями Ideogram 2.0 стремится конкурировать с ведущими игроками, такими как DALL-E от OpenAI, обещая высококачественные, фотографически реалистичные изображения с четким текстом.
CdXz5zHNQW_DBzXHXPWBL.png
AI21 Labs представила семейство моделей Jamba 1.5, которое теперь доступно в публичной предварительной версии в Vertex AI Model Garden Google Cloud. Семейство включает две модели: Jamba 1.5 Mini, предназначенную для эффективных и простых задач, таких как поддержка клиентов и генерация текста, и Jamba 1.5 Large, которая превосходно справляется с задачами расширенного рассуждения, такими как финансовый анализ. Обе модели имеют 256 тыс. контекстных окон и используют архитектуру Mamba-Transformer, обеспечивая эффективную обработку и расширенные функции для разработчиков, такие как вызов функций, оптимизация Retrieval-Augmented Generation (RAG) и структурированный вывод JSON.Эти модели адаптированы для корпоративных приложений, особенно в таких областях, как обслуживание клиентов, финансовый анализ и создание контента. Например, они могут суммировать объемные документы, извлекать сведения из финансовых данных и генерировать высококачественный контент. Модели Jamba 1.5 являются частью более широкой приверженности Google Cloud открытой и гибкой экосистеме ИИ, предоставляя корпоративным пользователям возможность создавать решения, которые наилучшим образом отвечают их потребностям.Доступные на Vertex AI эти модели расширяют ассортимент платформы, который включает более 150 моделей, позволяя пользователям выбирать лучшие инструменты для своих проектов. Vertex AI поддерживает простые эксперименты, настройку и развертывание этих моделей, обеспечивая оптимизированную производительность, управление затратами и безопасное развертывание. Разработчики могут получить доступ к этим моделям через простые API-вызовы и развернуть их с помощью управляемой инфраструктуры Google Cloud, которая предлагает надежные функции безопасности и соответствия требованиям.Начать работу с моделями Jamba 1.5 просто, пользователи могут выбрать и активировать модели прямо из Vertex AI Model Garden или Google Cloud Marketplace. Google Cloud продолжает сотрудничать с партнерами, такими как AI21 Labs, чтобы предоставлять самые современные возможности ИИ, гарантируя разработчикам доступ к новейшим достижениям в области технологий ИИ.
CdXz5zHNQW_kfrguXguxE.jpeg
В статье рассматривается эволюция и влияние генеративного ИИ (GenAI) на автоматизацию сложных офисных задач, в частности, извлечение данных из документов. Автор делится своим опытом работы инженером по машинному обучению в LinkedIn, где точная интерпретация названий должностей на разных языках и в разных регионах была непростой задачей. С появлением больших языковых моделей (LLM), таких как GPT-4, задачи, которые раньше были сложными, например, понимание и стандартизация резюме, стали тривиальными. Настоящий потенциал GenAI заключается в автоматизации офисной работы, связанной с извлечением информации из документов, что составляет значительную часть мирового ВВП. Примеры включают управление расходами, рассмотрение претензий по медицинскому страхованию и оценку кредитоспособности. Хотя известно, что LLM могут "галлюцинировать" в некоторых контекстах, они отлично справляются с анализом текста, опираясь на конкретные входные документы. Ключом к успешному извлечению информации из документов с помощью LLM является преобразование текста в чистый вид и надежное проектирование схем, что обеспечивает согласованность и точность выходных данных. Автор подчеркивает важность правильного извлечения текста, которое включает в себя обработку сложного форматирования и аннотаций. Он делится своим опытом создания Docupanda.io, SaaS-решения, призванного решать проблемы понимания документов путем создания чистых текстовых представлений и следования заранее определенным схемам. В статье подчеркивается, что определение этих схем имеет решающее значение, и что ИИ может помочь в их уточнении посредством итеративной обратной связи. Наконец, автор призывает изучить возможности использования LLM для регуляризации обработки документов, предполагая, что истинным "убойным приложением" GenAI является его способность преобразовывать офисную работу, основанную на документах.
CdXz5zHNQW_gZEuCrmBfg.jpeg
В недавнем выпуске нашей рассылки мы представили Codest — инструмент на основе ИИ, который генерирует приложения NextJS по изображениям. Основываясь на его успехе, наша команда R&D расширила возможности Codest, включив в него генерацию приложений Flutter и React Native по изображениям. Мы задокументировали наш прогресс в двух предыдущих статьях блога и рады сообщить, что эти новые функции теперь доступны в нашей версии Proof of Concept (PoC).Что нового? — Генерация приложений Flutter: Codest теперь может генерировать высококачественный модульный код Flutter из изображений с четким разделением между макетом и данными. — Генерация приложений React Native: аналогично интеграции Flutter, Codest также генерирует структурированный и многократно используемый код React Native.Зачем использовать Codest? Было доказано, что Codest сокращает время разработки до 20%, предоставляя разработчикам чистый, модульный код, который помогает оптимизировать процесс разработки как для мобильных, так и для веб-приложений.Мы приглашаем вас посмотреть три коротких видеоролика, демонстрирующих Codest в действии и показывающих, как он может генерировать функциональные приложения из изображений для React Native, Flutter и Next.js».
CdXz5zHNQW_m2AdynPdCB.jpeg
Luma Labs значительно улучшила свой генератор видео на основе ИИ Dream Machine, выпустив версию Dream Machine 1.5, которая поднимает планку реализма и отзывчивости на запросы пользователей. Это обновление бросает вызов конкурентам, особенно OpenAI, которая еще не выпустила публично свою модель видео Sora AI. Dream Machine 1.5 предлагает более быструю генерацию видео, создавая пять секунд высококачественного видео примерно за две минуты, и демонстрирует улучшенный реализм, более плавное движение и более качественный рендеринг текста. Эти усовершенствования делают его ценным инструментом для создателей контента и маркетологов, работающих в сжатые сроки.Несмотря на конкуренцию со стороны других генераторов видео на основе ИИ, таких как Runway, Stability AI и Jimeng от Bytedance, Dream Machine 1.5 выделяется своей доступностью и производительностью. Этот запуск знаменует собой значительное событие в области видео, созданного искусственным интеллектом, потенциально трансформируя такие отрасли, как индустрия развлечений, реклама и журналистика, позволяя быстро и легко создавать высококачественный визуальный контент.
CdXz5zHNQW_PeXO5fR47l.png
После нескольких недель задержек Microsoft объявила, что открытое тестирование Recall для ПК с Copilot Plus начнется в октябре.Эта вызывающая споры система, собирающая скриншоты, вызвала серьезные опасения по поводу безопасности и конфиденциальности, когда была впервые анонсирована.Искусственный интеллект и противоречия идут рука об руку, и одним из наиболее спорных событий этого года стало заявление Microsoft о планах по внедрению Recall для ПК с Copilot Plus. Система будет постоянно делать скриншоты во время работы на ПК, обрабатывать эти изображения с помощью ИИ, а затем позволять вам искать по ним нужную информацию. После нескольких месяцев ожидания мы наконец узнали, когда Microsoft намерена открыть Recall для первых публичных тестировщиков.Recall сразу же вызвал обеспокоенность у защитников конфиденциальности, которые опасаются, что само существование этого огромного архива со всем, что вы делали на своем ПК, представляет собой ненужную угрозу конфиденциальности — только представьте, насколько уязвимыми вы окажетесь, если кто-то получит к нему доступ. И действительно, ранний анализ, проведенный независимым исследователем, только усилил беспокойство по поводу того, как Microsoft планирует реализовать Recall».
CdXz5zHNQW_pC0zeBYUXD.jpeg
## Дипфейки и борьба с ними: McAfee и Lenovo представляют детекторДипфейковые видео, созданные с помощью искусственного интеллекта (ИИ) для имитации реальных людей, представляют собой серьезную угрозу кибербезопасности, поскольку способны вводить людей в заблуждение поддельным контентом с участием знаменитостей и публичных деятелей. Для борьбы с этой угрозой McAfee объединила усилия с Lenovo, чтобы представить Deepfake Detector - инструмент, разработанный для выявления и пометки дипфейковых видео на некоторых моделях ПК Lenovo с поддержкой ИИ. Этот инструмент, обученный на 200 000 видеообразцах, работает локально на устройствах с нейроморфным процессором (NPU), обеспечивая конфиденциальность и обнаружение в режиме реального времени без необходимости доступа к облаку.Первоначально детектор будет доступен в США, Великобритании и Австралии, он будет включен в новые ПК Lenovo с поддержкой ИИ с 30-дневной пробной версией, после чего будет доступна годовая подписка за 10 долларов. Сотрудничество McAfee и Lenovo направлено на повышение цифровой безопасности, хотя эксклюзивность в отношении чипов Intel остается неясной.Кроме того, McAfee предлагает Smart AI Hub на сайте McAfee.ai, где пользователи могут анализировать видео на наличие дипфейков и узнавать о мошенничестве с использованием ИИ.
CdXz5zHNQW_Vp8Ehbwzqe.png
Google расширяет возможности своего помощника по написанию текстов на основе искусственного интеллекта в Gmail благодаря функциям, работающим на базе Gemini, доступным через ярлык "Помогите мне написать". Последним нововведением стала опция "Улучшить", которая совершенствует черновики электронных писем, как правило, делая их более формальными. Эта функция доступна как на мобильных устройствах, так и в веб-версии.Кроме того, при написании писем объемом не менее 12 слов на iOS и Android пользователи могут получить доступ к таким опциям, как "Улучшить", "Сделать более формальным", "Развернуть", "Сократить" и "Написать новый черновик", проведя пальцем по запросу "Улучшить мой черновик". Эти функции доступны исключительно подписчикам премиального плана Google One AI или организациям с определенными дополнениями Gemini для образования и бизнеса.Тем не менее, существуют сомнения в практичности и эффективности этих инструментов, некоторые пользователи задаются вопросом, действительно ли они экономят время или улучшают качество электронной переписки.
CdXz5zHNQW_OYE7bCPiyg.png
Google Cloud представил поддержку GPU NVIDIA L4 для Cloud Run, которая сейчас находится в предварительном просмотре, что позволяет разработчикам проводить реальное время AI-инференцию с легкостью. Это обновление особенно полезно для приложений, использующих открытые генеративные модели ИИ, такие как Gemma от Google и Llama от Meta. Ключевые функции включают быстрое масштабирование, масштабирование до нуля и оплату по использованию, что делает Cloud Run идеальным для обработки переменного пользовательского трафика и оптимизации затрат.С помощью этой новой возможности разработчики могут развертывать легкие модели для задач, таких как настройка чат-ботов и резюмирование документов, или более ресурсоемкие приложения, такие как распознавание изображений и трехмерное рендеринг. NVIDIA GPUs улучшают производительность, ускоряя процессы AI-инференции, предлагая низкую задержку и эффективное масштабирование, при этом инфраструктура Cloud Run управляет лежащими в основе сложностями.Ранние пользователи, такие как L’Oreal и Chaptr, высоко оценили интеграцию GPU за короткие стартовые времена, масштабируемость и простоту использования. Поддержка GPU в настоящее время доступна в регионе US-central1, с планами по расширению до Европы и Азии к концу года.Чтобы развернуть службу с поддержкой GPU NVIDIA на Cloud Run, разработчики могут указать требования к GPU с помощью командной строки или консоли Google Cloud. Кроме того, Cloud Run теперь поддерживает функции с вложениями GPU, упрощая задачи по событийной AI-инференции.