Actualités de l'IA et du ML en... Note

Actualités de l'IA et du ML en français

« AI & ML News » est une collection de notes technologiques axées sur l'intelligence artificielle et l'apprentissage automatique. Il rassemble les actualités et les analyses des derniers développements en matière d'IA et de ML. Le flux couvre un large éventail de sujets, y compris les nouveaux algorithmes, les applications et la recherche. Il met en évidence les tendances de l'industrie et l'impact de l'IA et de l'apprentissage automatique sur divers secteurs de l'économie. Les documents traitent de domaines tels que les réseaux neuronaux, l'apprentissage profond et le traitement du langage naturel. Des exemples d'applications de l'IA dans les soins de santé, la finance et d'autres industries sont examinés. Les publications intéresseront à la fois les spécialistes - développeurs et analystes de données - et toute personne intéressée par le développement des technologies de l'IA. Les questions d'éthique de l'IA et de confidentialité des données sont abordées. Le flux présente aux lecteurs les principaux acteurs du marché de l'IA, qu'il s'agisse de grandes entreprises ou de jeunes pousses prometteuses. Des informations sur les outils et les plateformes de développement de systèmes d'IA sont présentées. « AI & ML News » vise à fournir des informations objectives et actualisées sur le développement de l'intelligence artificielle et de l'apprentissage automatique.

Fil de notes

CdXz5zHNQW_IT3IvF71Jb.jpeg
Le blog traite des progrès des technologies de recherche au-delà du texte, intégrant des images et des vidéos dans les capacités de recherche grâce à des plongements multimodaux. Les moteurs de recherche d'entreprise traditionnels étaient conçus pour les requêtes textuelles, ce qui limitait leur capacité à gérer le contenu visuel. En intégrant le traitement du langage naturel (TLN) et les plongements multimodaux, il est désormais possible d'effectuer des recherches sémantiques intermodales, permettant aux utilisateurs de rechercher des images et des vidéos comme ils le feraient avec du texte. Le blog présente un système capable d'effectuer des recherches texte-image, texte-vidéo et combinées en utilisant Google Cloud Storage pour le stockage des médias et BigQuery pour l'indexation. Un modèle d'intégration multimodale est utilisé pour générer des intégrations pour les fichiers multimédias, permettant des recherches de similarités efficaces. L'architecture prend en charge des expériences de recherche intermodale transparentes, rendant la découverte de contenu plus intuitive. L'entrée de texte de l'utilisateur est convertie en une intégration, et une recherche vectorielle est effectuée pour faire correspondre la requête avec les données multimédias stockées. Enfin, les résultats sont présentés à l'utilisateur avec les URI d'image ou de vidéo les plus pertinents et leurs scores de similarité. Cette approche améliore l'expérience de recherche, ouvrant de nouvelles possibilités pour la recherche de contenu visuel.
CdXz5zHNQW_1XAuQPcNYE.jpeg
Vous êtes impatient de plonger dans le monde de l'apprentissage automatique mais vous vous sentez un peu dépassé par les mathématiques et les statistiques ? Ne vous inquiétez pas, vous n'êtes pas le seul ! De nombreux aspirants data scientists trouvent ces sujets intimidants. La bonne nouvelle, c'est qu'il existe une pléthore de cours gratuits en ligne qui peuvent vous aider à acquérir une base solide.Coursera :Machine Learning par Andrew Ng : ce cours légendaire vous présente non seulement les concepts de l'apprentissage automatique, mais fournit également une base mathématique solide. Mathematics for Machine Learning par l'Imperial College London : si vous souhaitez approfondir les concepts mathématiques, ce cours est un excellent choix.edX :Introduction to Machine Learning par Microsoft : ce cours offre une approche équilibrée, combinant les principes fondamentaux de l'apprentissage automatique avec les connaissances mathématiques nécessaires. Fundamentals of Data Science par l'Université de Columbia : ce cours propose une perspective plus large sur la science des données, notamment les statistiques et l'apprentissage automatique. MIT OpenCourseWare :Introduction to Algorithms : bien qu'il ne traite pas strictement de l'apprentissage automatique, ce cours jette une base solide dans les algorithmes et les structures de données, essentiels pour comprendre les concepts d'apprentissage automatique. Probability and Random Variables : une plongée approfondie dans la théorie des probabilités est cruciale pour comprendre de nombreux algorithmes d'apprentissage automatique.Khan Academy :Linear Algebra : une ressource complète pour apprendre l'algèbre linéaire, un sujet fondamental en apprentissage automatique.Calculus : un autre concept mathématique essentiel, le calcul est couvert en détail sur Khan Academy.Statistics and Probability : une solide compréhension des statistiques et des probabilités est essentielle pour l'analyse des données et l'apprentissage automatique.N'oubliez pas : bien que ces cours offrent des ressources précieuses, une pratique régulière et une expérience pratique sont essentielles pour maîtriser ces sujets. Commencez par les bases et augmentez progressivement la complexité à mesure que vous prenez confiance. Avec du dévouement et les bonnes ressources, vous serez sur la bonne voie pour devenir un praticien compétent de l'apprentissage automatique.Bon apprentissage !
En 2024, le secteur européen de l'IA a montré une résilience significative dans le financement du capital-risque, avec 14 investissements dépassant les 100 millions de dollars en date d'août. Cela contraste avec le contexte global difficile pour les startups, où le financement a été difficile à obtenir. L'IA est notamment apparue comme un solide domaine d'investissement, en raison des coûts élevés associés au développement des technologies d'IA et de la concurrence intense pour les talents.Voici les principaux moments forts des meilleures transactions dans le domaine de l'IA en Europe cette année :- Wayve : Cette startup basée à Cambridge a levé 1,05 milliard de dollars pour améliorer sa technologie de conduite autonome, marquant le plus important cycle de financement pour une société d'IA en Europe. Wayve se concentre sur la vente de sa technologie d'IA aux constructeurs automobiles plutôt que sur la production de véhicules elle-même. - Mistral : Acteur de premier plan dans la construction de grands modèles linguistiques, Mistral a levé plus de 1 milliard de dollars grâce à deux importants cycles de financement de 431 millions de dollars et 650 millions de dollars. La société met l'accent sur les technologies open source, destinées aux entreprises et aux développeurs. - Helsing : Cette startup allemande, qui se concentre sur l'IA pour les applications de défense, a obtenu 484 millions de dollars. Sa technologie vise à améliorer les systèmes et les capacités de défense, en particulier à la lumière des tensions géopolitiques en Europe. - Poolside : Ciblant les développeurs de logiciels, Poolside a levé 400 millions de dollars pour développer des outils d'IA qui rationalisent les processus de développement de logiciels. - DeepL : Connue pour ses services de traduction basés sur l'IA, DeepL a levé 320 millions de dollars, en se concentrant sur le marché B2B avec environ 100 000 clients professionnels. - H : Anciennement Holistic AI, cette startup a levé 220 millions de dollars en amorçage, dans le but de développer des agents d'IA pour l'automatisation des tâches et la prise de décision. - Flo Health : L'application de santé pour les femmes basée à Londres a levé 200 millions de dollars, devenant la première application de santé purement numérique à atteindre une valorisation de plus d'un milliard de dollars. - Pigment : Cette startup parisienne, qui fournit des solutions de planification des ressources de l'entreprise, a levé 145 millions de dollars, en intégrant l'IA dans ses offres.Dans l'ensemble, le paysage européen de l'IA se caractérise par des cycles de financement substantiels et un accent sur les technologies fondamentales, des villes comme Paris devenant des pôles clés pour le développement de l'IA.
CdXz5zHNQW_1dHclHl6ue.jpeg
Présentation En tant qu'ingénieur ML chez Substack, vous jouerez un rôle crucial dans le développement et la mise en œuvre de solutions d'apprentissage automatique de pointe pour améliorer nos offres de produits. Vous ferez partie d'une équipe dynamique, collaborant étroitement avec des ingénieurs logiciels et des scientifiques des données, pour intégrer des modèles d'apprentissage automatique dans notre base de code et les intégrer de manière transparente dans nos produits. Ce rôle offre une opportunité passionnante de façonner l'avenir de notre pile technologique et d'avoir un impact significatif.La rémunération chez Substack comprend un salaire compétitif sur le marché, des actions pour tous les postes à temps plein et des avantages exceptionnels. La fourchette de salaire de cette offre d'emploi est de 185 000 $ à 240 000 $. Le montant final de l'offre est déterminé par de multiples facteurs, notamment l'expérience et l'expertise du candidat, et peut varier par rapport aux montants indiqués ci-dessus.Responsabilités - Diriger la réflexion de Substack sur l'adoption de l'apprentissage automatique et l'intégration d'outils et de techniques d'apprentissage automatique - Collaborer avec des équipes interfonctionnelles pour identifier et définir les opportunités d'apprentissage automatique qui s'alignent sur notre feuille de route produit - Développer, former et déployer des modèles d'apprentissage automatique en utilisant Python et les cadres ML populaires - Tirer parti d'outils et de systèmes ML prêts à l'emploi pour accélérer la capacité de Substack à intégrer des fonctionnalités ML dans ses produits et ses flux de travail - Intégrer des modèles et des pipelines d'apprentissage automatique dans nos principales applications JavaScript/TypeScript - Optimiser et ajuster les modèles d'apprentissage automatique pour améliorer les performances, l'évolutivité et l'efficacité - Concevoir et implémenter des pipelines de données pour le prétraitement des données, l'ingénierie des fonctionnalités et la formation des modèles - Déployer et posséder des expériences produit intégrées et des outils internesPrérequis - Plus de 7 ans d'expérience pertinente avec les systèmes de données et d'apprentissage automatique - De solides compétences en programmation en Python et une expérience des bibliothèques Python couramment utilisées en apprentissage automatique (par exemple, Transformers et Tensorflow) - Une solide compréhension des algorithmes d'apprentissage automatique, de l'apprentissage profond et de la modélisation statistique - Indépendant et autonome. Nous sommes trop petits pour faire de la microgestion et nous attendons que chaque personne de l'entreprise s'approprie son travail et puisse être un leader. - Se tenir soi-même et les autres à un niveau élevé lors du travail sur des systèmes de production. - Aimer collaborer avec un groupe diversifié de parties prenantes tout en apportant son expérience et ses antécédents uniques à l'équipeSouhaitable - Maîtrise de Node.js et JavaScript pour une intégration transparente des modèles d'apprentissage automatique dans notre base de code - Connaissance des plateformes cloud (par exemple, AWS ou Modal) - Expérience des applications Web grand public à grande échelleSubstack est un employeur garantissant l'égalité des chances. Tous les candidats seront considérés pour un emploi sans distinction de race, de couleur, de religion, de sexe (y compris la grossesse, l'orientation sexuelle, l'identité de genre ou le statut transgenre), d'âge, d'origine nationale, d'ancien combattant ou de handicap. Nous recherchons des personnes passionnées par l'expression indépendante et la création d'un meilleur modèle commercial pour les créateurs. Si vous voulez voir ce que les médias, les communautés et le contenu peuvent devenir lorsqu'ils sont libérés des modèles publicitaires, et que vous avez les compétences et l'expérience pour contribuer, nous serions ravis de vous rencontrer.
CdXz5zHNQW_EE7h46XUKP.jpeg
CdXz5zHNQW_2T09iCSRkR.png
Près de 200 employés de Google DeepMind, la division de recherche en IA de l'entreprise, ont signé une lettre exhortant l'entreprise à résilier ses contrats avec les organisations militaires. La lettre du 16 mai, révélée par TIME, souligne la préoccupation croissante au sein de l'organisation concernant les implications éthiques de l'utilisation de sa technologie d'IA pour la guerre numérique. Les signataires représentent environ 5 % de l'effectif de DeepMind, dénonçant les contrats de l'entreprise visant à fournir des services d'IA et d'informatique en nuage à divers gouvernements, notamment l'armée israélienne dans le cadre du projet Nimbus.Les employés de Google s'inquiètent de l'utilisation de leur IA dans la guerre.Les employés soutiennent qu'une telle implication viole les propres principes d'IA de Google, qui stipulent que l'entreprise ne poursuivra pas d'applications d'IA causant un « préjudice global » ou contribuant à l'armement et à la surveillance. Bien que la lettre s'abstienne de mentionner un conflit géopolitique spécifique, elle renvoie à des rapports alléguant que les opérations militaires israéliennes utilisent l'IA pour la surveillance et le ciblage. Bien que DeepMind ait historiquement maintenu une politique contre l'utilisation de sa technologie à des fins militaires, l'entreprise est devenue de plus en plus proche des opérations plus larges de Google depuis son acquisition en 2014, entraînant des liens plus étroits avec les contrats militaires. Malgré les demandes de la lettre, notamment un examen de la technologie de DeepMind utilisée par les clients militaires et la création d'un nouvel organe de gouvernance, Google n'a pris aucune mesure décisive. TechRadar Pro a demandé à l'entreprise de commenter la lettre interne du personnel, mais nous n'avons pas reçu de réponse immédiate.  L'un des signataires de la lettre a exprimé son mécontentement face à la réponse de Google à la plainte à TIME, déclarant que la déclaration de la société sur le projet Nimbus « est si spécifiquement non spécifique que nous ne sommes pas plus sages sur ce que cela signifie réellement.
CdXz5zHNQW_dufSnWtrrX.jpeg
L'automatisation est depuis longtemps une pierre angulaire des systèmes CRM, aidant les équipes de vente, de marketing et de service client à rationaliser les tâches répétitives. Cependant, l'intégration de l'IA a considérablement amélioré les capacités du CRM, révolutionnant les processus tels que la gestion des prospects, l'analyse prédictive et le service client. Les outils d'IA dans le CRM, tels qu'Einstein de Salesforce, analysent de gros volumes de données pour prédire les conversions de prospects, permettant aux équipes de vente de se concentrer sur les prospects à fort potentiel. Les chatbots basés sur l'IA améliorent le service client en fournissant des réponses rapides et personnalisées et en acheminant les cas complexes vers des agents humains lorsque cela est nécessaire. De plus, l'IA aide les entreprises à mieux comprendre leur public en analysant le comportement des clients et en créant des profils d'acheteurs détaillés. Les prévisions de ventes ont également été améliorées, car l'IA peut analyser des données historiques et en temps réel pour prédire les résultats des ventes et identifier les tendances. En améliorant l'automatisation grâce à l'IA, les systèmes CRM offrent désormais une automatisation des tâches plus contextuelle et efficace, ce qui augmente en fin de compte la productivité. Malgré ces avancées, l'expertise humaine reste cruciale pour une mise en œuvre réussie de l'IA dans le CRM, soulignant le besoin de perfectionnement et d'embauche de nouveaux talents.
CdXz5zHNQW_GEQ4HPEs5i.jpeg
L'article de Stephen Wolfram explore les rouages de l'apprentissage machine à travers des modèles minimaux, dans le but de simplifier les complexités de l'IA. Il commence par expliquer comment les réseaux de neurones sont inspirés des systèmes biologiques, mais opèrent en utilisant des abstractions mathématiques. Wolfram souligne l'importance de comprendre les processus fondamentaux de l'apprentissage machine plutôt que de se concentrer uniquement sur les résultats. Il utilise les automates cellulaires comme un modèle simple pour illustrer comment la complexité peut découler de règles simples. En comparant l'apprentissage machine à ces systèmes, Wolfram suggère que la compréhension des mécanismes sous-jacents peut conduire à de meilleures perspectives sur le fonctionnement de l'IA. Il aborde également le rôle du hasard et du déterminisme dans l'entraînement des modèles, arguant qu'un comportement apparemment imprévisible peut être ramené à des règles simples et déterministes. Wolfram souligne la nécessité de nouveaux paradigmes pour mieux saisir la véritable nature de l'apprentissage machine. Il évoque également les limites des modèles actuels d'IA, qui reposent souvent largement sur des données plutôt que sur la compréhension. Enfin, il appelle à une exploration plus approfondie des modèles minimaux pour découvrir les principes fondamentaux régissant l'apprentissage machine, ce qui pourrait conduire à des systèmes d'IA plus robustes et interprétables.
CdXz5zHNQW_LL4HTs3TLM.jpeg
CdXz5zHNQW_dLgS4NZnT9.jpeg
AI21 Labs a présenté la famille de modèles Jamba 1.5, désormais disponible en aperçu public sur le Vertex AI Model Garden de Google Cloud. La famille comprend deux modèles : Jamba 1.5 Mini, conçu pour des tâches efficaces et légères comme le support client et la génération de texte, et Jamba 1.5 Large, qui excelle dans les tâches de raisonnement avancées telles que l'analyse financière. Les deux modèles sont dotés d'une fenêtre de contexte de 256 K et utilisent l'architecture Mamba-Transformer, offrant un traitement efficace et des fonctionnalités avancées pour les développeurs, telles que l'appel de fonctions, les optimisations de génération augmentée par la recherche (RAG) et la sortie JSON structurée.Ces modèles sont adaptés aux applications d'entreprise, en particulier dans des domaines tels que le service client, l'analyse financière et la création de contenu. Par exemple, ils peuvent résumer de longs documents, extraire des informations à partir de données financières et générer du contenu de haute qualité. Les modèles Jamba 1.5 s'inscrivent dans l'engagement plus large de Google Cloud en faveur d'un écosystème d'IA ouvert et flexible, offrant aux utilisateurs professionnels la possibilité de créer des solutions qui répondent au mieux à leurs besoins.Disponibles sur Vertex AI, ces modèles élargissent les offres de la plateforme, qui comprennent plus de 150 modèles, permettant aux utilisateurs de choisir les meilleurs outils pour leurs projets. Vertex AI prend en charge l'expérimentation, la personnalisation et le déploiement faciles de ces modèles, permettant des performances optimisées, une gestion des coûts et un déploiement sécurisé. Les développeurs peuvent accéder à ces modèles via de simples appels d'API et les déployer à l'aide de l'infrastructure gérée de Google Cloud, qui offre de solides fonctionnalités de sécurité et de conformité.Commencer à utiliser les modèles Jamba 1.5 est simple. Les utilisateurs peuvent sélectionner et activer les modèles directement depuis Vertex AI Model Garden ou Google Cloud Marketplace. Google Cloud continue de collaborer avec des partenaires comme AI21 Labs pour fournir des capacités d'IA de pointe, garantissant aux développeurs l'accès aux dernières avancées de la technologie d'IA.
CdXz5zHNQW_kfrguXguxE.jpeg
L’article traite de l’évolution et de l’impact de l’IA générative (GenAI) sur l’automatisation des tâches de bureau complexes, notamment l’extraction de documents. L’auteur revient sur son expérience en tant qu’ingénieur en apprentissage automatique chez LinkedIn, où l’interprétation précise des titres de poste dans différentes langues et régions était une tâche difficile. Avec l’avènement de grands modèles linguistiques (GML) comme GPT-4, des tâches autrefois difficiles, comme la compréhension et la standardisation des CV, sont devenues triviales. Le véritable potentiel de la GenAI réside dans l’automatisation du travail de bureau qui implique l’extraction d’informations à partir de documents, une tâche qui représente une part importante du PIB mondial. Parmi les exemples, citons la gestion des dépenses, le traitement des demandes d’indemnisation des soins de santé et la souscription de prêts. Bien que les GML soient connus pour avoir des hallucinations dans certains contextes, ils excellent dans le raisonnement sur le texte lorsqu’ils sont fondés sur des documents d’entrée spécifiques. La clé d’une extraction réussie de documents à l’aide des GML est la conversion de texte propre et la conception de schémas robustes, qui garantissent des sorties cohérentes et précises. L’auteur souligne l’importance d’une extraction de texte appropriée, qui implique le traitement de mises en forme et d’annotations complexes. Il partage son expérience de la création de Docupanda.io, une solution SaaS conçue pour relever les défis de la compréhension des documents en générant des représentations de texte propres et en adhérant à des schémas prédéfinis. L’article souligne que la définition de ces schémas est cruciale et que l’IA peut aider à les affiner grâce à des commentaires itératifs. Enfin, l’auteur encourage l’exploration de l’utilisation des GML pour régulariser le traitement des documents, suggérant que la véritable « application tueuse » de la GenAI est sa capacité à transformer le travail de bureau basé sur des documents.
CdXz5zHNQW_gZEuCrmBfg.jpeg
CdXz5zHNQW_m2AdynPdCB.jpeg
CdXz5zHNQW_pC0zeBYUXD.jpeg
Google Cloud a introduit le support du GPU NVIDIA L4 pour Cloud Run, maintenant en préversion, permettant aux développeurs de réaliser des inférences d'IA en temps réel avec facilité. Cette mise à jour est particulièrement bénéfique pour les applications utilisant des modèles d'IA générative ouverte, comme Google's Gemma et Meta's Llama. Les principales caractéristiques comprennent une mise à l'échelle rapide, une mise à l'échelle à zéro et un tarif pay-per-use, rendant Cloud Run idéal pour gérer le trafic utilisateur variable et l'optimisation des coûts.Avec cette nouvelle capacité, les développeurs peuvent déployer des modèles légers pour des tâches comme des chatbots personnalisés et la résumé de documents, ou des applications plus exigeantes en ressources comme la reconnaissance d'images et la génération de 3D. Les GPU NVIDIA améliorent les performances en accélérant les processus d'inférence d'IA, offrant une faible latence et une scalabilité efficace, tandis que l'infrastructure de Cloud Run gère les complexités sous-jacentes.Les adoptants précoces, comme L'Oréal et Chaptr, ont loué l'intégration du GPU pour ses temps de démarrage faibles, sa scalabilité et sa facilité d'utilisation. Le support du GPU est actuellement disponible dans la région US-central1, avec des plans pour s'étendre à l'Europe et à l'Asie d'ici la fin de l'année.Pour déployer un service avec des GPU NVIDIA sur Cloud Run, les développeurs peuvent spécifier les exigences GPU via la ligne de commande ou la console Google Cloud. De plus, Cloud Run prend maintenant en charge les fonctions avec des attachements GPU, simplifiant les tâches d'inférence d'IA basées sur les événements.