Image d'un prisme

Prisme sur la recherche en IA générative

L'idée du "prisme" est de décomposer, d'analyser et de révéler différentes composantes de la recherche en IA générative. Ce prisme permet de projeter 4 composantes principales pour permettre d'appréhender les tendances de fond. Ces 4 composantes sont Applications au monde réel, Interaction Humain - IA générative, Confiance et Recherche. Il s'agit d'un prisme personnel qui doit être interprété comme tel, il y a bien d'autres prismes ou analyses possibles. La date de dernière mise à jour apparait sur le graphique (minimum toutes les semaines). Travail hybride humain (catégorisation, identification des tendances) + IA Gen (résumés en français des papiers de recherche). Seule la dernière semaine est détaillée en-dessous du tableau. Les indicateurs technologiques figurant sur le tableau sont une simple mise en relief.
Image Prisme

Semaine 2025-26 (30/06/2025 - 06/07/2025)

Applications
DateTitreRésumé
2025-07-03Introducing a New Brexit-Related Uncertainty Index: Its Evolution and Economic ConsequencesCet article introduit un nouvel indice d'incertitude lié au Brexit, utilisant des techniques de traitement du langage naturel pour aider les décideurs britanniques à évaluer l'impact des incertitudes économiques engendrées par le Brexit.
2025-07-03Open-Source System for Multilingual Translation and Cloned Speech SynthesisUn nouveau système open-source révolutionne la traduction multilingue et la régénération vocale en intégrant des modèles de langue avancés, permettant une communication immersive et accessible tout en préservant l'identité vocale des locuteurs.
2025-07-03LLMREI: Automating Requirements Elicitation Interviews with LLMsDes chercheurs ont développé un chatbot nommé LLMREI pour automatiser les entretiens de collecte des exigences, réduisant ainsi les erreurs fréquentes des intervieweurs, tout en démontrant une efficacité similaire à celle des humains pour extraire des exigences pertinentes et adapter les questions au contexte.
2025-07-03DynamiCare: A Dynamic Multi-Agent Framework for Interactive and Open-Ended Medical Decision-MakingLes chercheurs introduisent MIMIC-Patient, un ensemble de données dérivé des dossiers de santé électroniques MIMIC-III, pour simuler des diagnostics médicaux dynamiques et présentent DynamiCare, un cadre multi-agents interactif pour des prises de décisions cliniques itératives et efficaces.
2025-07-03Medical Data Pecking: A Context-Aware Approach for Automated Quality Evaluation of Structured Medical DataLes chercheurs ont développé une approche innovante, appelée Medical Data Pecking, qui utilise des techniques de test automatisé pour améliorer la qualité et la validité des données des dossiers de santé électroniques (EHR), en révélant des problèmes de précision et de biais.
2025-07-03Hey AI, Generate Me a Hardware Code! Agentic AI-based Hardware Design & VerificationL'article explore une approche innovante utiliser l'IA générative pour améliorer la vérification de conception de circuits intégrés grâce à des agents collaborant avec des humains, augmentant l'efficacité et la couverture tout en réduisant le temps de vérification.
2025-07-03Knowledge Protocol Engineering: A New Paradigm for AI in Domain-Specific Knowledge WorkLes chercheurs proposent le Knowledge Protocol Engineering (KPE), une nouvelle approche pour transformer les modèles de langage en spécialistes capables de traiter des tâches complexes en traduisant systématiquement le savoir expert humain en protocoles exécutables par machine, promettant de révolutionner la collaboration humain-IA dans des domaines tels que le droit et la bioinformatique.
2025-07-03KERAP: A Knowledge-Enhanced Reasoning Approach for Accurate Zero-shot Diagnosis Prediction Using Multi-agent LLMsLes chercheurs introduisent KERAP, une approche améliorée par réseau de connaissances pour la prédiction de diagnostics médicaux, qui optimise la fiabilité des diagnostics sans données préalablement étiquetées, en utilisant une architecture multi-agent pour une solution scalable et interprétable.
2025-07-03From Long Videos to Engaging Clips: A Human-Inspired Video Editing Framework with Multimodal Narrative UnderstandingCet article présente le framework HIVE pour le montage vidéo automatisé basé sur la compréhension multimodale des récits, améliorant la cohérence des vidéos condensées et surpassant les méthodes existantes en utilisant le nouveau dataset DramaAD.
2025-07-03LLM-Driven Treatment Effect Estimation Under Inference Time Text ConfoundingLes chercheurs proposent un cadre novateur pour estimer les effets des traitements médicaux, en utilisant des modèles de langage pour atténuer les biais causés par la disparité d'informations entre l'entraînement et l'inférence. Leurs expériences démontrent l'efficacité de cette approche dans des applications concrètes.
2025-07-03Requirements Elicitation Follow-Up Question GenerationDes chercheurs ont démontré que les modèles de langage de grande taille, comme GPT-4o, peuvent générer des questions de suivi pour des interviews de spécification de besoins qui sont aussi claires et pertinentes que celles créées par des humains, et même plus performantes lorsqu'elles s'appuient sur des erreurs communes faites par les interviewers.
2025-07-02Beyond Black-Box AI: Interpretable Hybrid Systems for Dementia CareCet article explore les limites des modèles de langage dans le diagnostic médical, particulièrement pour la démence, et préconise des approches hybrides combinant IA statistique et connaissance clinique afin d'améliorer l'interprétabilité et la pertinence des recommandations cliniques.
2025-07-02AI Agents and Agentic AI-Navigating a Plethora of Concepts for Future ManufacturingCet article examine l'évolution des technologies d'agents d'IA basées sur les grands modèles de langage et l'IA agentique, en analysant leurs concepts de base, leurs avancées technologiques et leur potentiel dans le secteur de la fabrication intelligente, tout en s'interrogeant sur les défis liés à leur application concrète.
2025-07-02Pensieve Grader: An AI-Powered, Ready-to-Use Platform for Effortless Handwritten STEM GradingPensieve, une plateforme d'évaluation assistée par IA, accélère la correction des réponses manuscrites ouvertes dans les cours STEM, réduisant de 65% le temps de notation tout en maintenant une précision de 95.4% par rapport aux évaluations des instructeurs.
2025-07-02EdgeLoRA: An Efficient Multi-Tenant LLM Serving System on Edge DevicesEdgeLoRA, un nouveau système pour déployer les grands modèles de langage sur des appareils en périphérie, améliore considérablement la latence et le débit grâce à des innovations en sélection adaptative d'adapteurs, gestion hétérogène de la mémoire et traitement par lot, dépassant les performances des systèmes actuels.
2025-07-02Using multi-agent architecture to mitigate the risk of LLM hallucinationsLes chercheurs présentent un système multi-agent intégrant des modèles de langage et la logique floue pour améliorer la qualité du service client et réduire les risques de hallucinations dans les interactions par SMS.
2025-07-02Evaluating the Effectiveness of Direct Preference Optimization for Personalizing German Automatic Text Simplifications for Persons with Intellectual DisabilitiesLes chercheurs améliorent la personnalisation des systèmes d'intelligence artificielle pour la simplification automatique des textes en intégrant les préférences des personnes handicapées intellectuelles, grâce à une technique d'alignement efficace appelée optimisation directe des préférences.
2025-07-02BioMARS: A Multi-Agent Robotic System for Autonomous Biological ExperimentsBioMARS est une plateforme intelligente intégrant des modèles de langage et de vision modulaire pour automatiser les expériences biologiques, démontrant une performance égale ou supérieure à celle des méthodes manuelles et optimisant l'expérimentation laboratoires via une interface de collaboration en temps réel.
2025-07-02Data Agent: A Holistic Architecture for Orchestrating Data+AI EcosystemsLes chercheurs proposent une architecture appelée "Data Agent" pour révolutionner les systèmes de données en intégrant des capacités de compréhension, de raisonnement et de planification des modèles de langage, afin d'améliorer l'orchestration des écosystèmes Data+AI.
2025-07-02Agent Ideate: A Framework for Product Idea Generation from Patents Using Agentic AIDes chercheurs ont développé "Agent Ideate", une architecture utilisant des grands modèles de langage associés à des agents autonomes pour extraire et générer des idées de produits à partir de brevets, surpassant les modèles autonomes en termes de qualité et de nouveauté des idées.
2025-07-02LLMs for Legal Subsumption in German Employment ContractsL'article explore l'utilisation de modèles de langage de grande taille dans l'évaluation de la légalité des clauses de contrats de travail allemands, montrant que les lignes directrices d'examen améliorent significativement les performances, mais que ces modèles restent encore en deçà de l'expertise humaine.
2025-07-02TypeTele: Releasing Dexterity in Teleoperation by Dexterous Manipulation TypesLes chercheurs proposent TypeTele, un système de téléopération guidé par des types de manipulation qui maximise la dextérité des mains robotiques en s'affranchissant des limitations des mouvements humains, augmentant ainsi le taux de succès des tâches complexes dans des environnements réels.
2025-07-02SpecCLIP: Aligning and Translating Spectroscopic Measurements for StarsSpecCLIP est un modèle d'IA inspiré des grands modèles linguistiques, appliqué pour la première fois à l'analyse spectrale stellaire, permettant des calibrations croisées entre instruments et améliorant l'estimation des paramètres stellaires et la détection d'anomalies.
2025-07-02PAL: Designing Conversational Agents as Scalable, Cooperative Patient Simulators for Palliative-Care TrainingLes chercheurs présentent PAL, une IA conversationnelle pour la formation en soins palliatifs, permettant aux praticiens de simuler des interactions patient empathiques avec retour structuré, révélant ainsi son potentiel et ses limites dans le perfectionnement des compétences cliniques.
2025-07-02SAKURAONE: Empowering Transparent and Open AI Platforms through Private-Sector HPC Investment in JapanSAKURAONE, un cluster de calcul haute performance développé par le SAKURA Internet Research Center, atteint le 49e rang mondial sur la liste TOP500 de 2025, et se distingue par son utilisation d'une pile réseau entièrement ouverte, démontrant ainsi la compétitivité des technologies neutres vis-à-vis des fournisseurs dans les infrastructures HPC.
2025-07-02CROP: Circuit Retrieval and Optimization with Parameter Guidance using LLMsLes chercheurs proposent CROP, un framework de tuning automatique pour la conception de circuits VLSI, utilisant un modèle de langage avancé pour optimiser les paramètres et améliorer l'efficacité énergétique des puces.
2025-07-02BACTA-GPT: An AI-Based Bayesian Adaptive Clinical Trial ArchitectLes chercheurs ont développé BACTA-GPT, un modèle de langage basé sur GPT-3.5, destiné à faciliter la mise en œuvre des essais cliniques adaptatifs bayésiens en réduisant la complexité des calculs bayésiens, ouvrant ainsi la voie à une adoption plus large tout en nécessitant une rigoureuse validation et un contrôle de qualité.
2025-07-02Dissecting the Impact of Mobile DVFS Governors on LLM Inference Performance and Energy EfficiencyL'article explore l'optimisation de l'efficacité énergétique des modèles linguistiques automatisés sur appareils mobiles, présentant FUSE, un gouverneur énergétique qui réduit significativement les latences sans augmenter la consommation d'énergie.
2025-07-02The Revolution Has Arrived: What the Current State of Large Language Models in Education Implies for the FutureLes modèles de langage large, disponibles depuis 2022, transforment déjà l'éducation et la technologie éducative, nécessitant des ajustements dans la conception pour répondre aux nouvelles attentes des apprenants et des utilisateurs.
2025-07-02Enhancing COBOL Code Explanations: A Multi-Agents Approach Using Large Language ModelsL'article présente une approche multi-agents utilisant des modèles linguistiques pour améliorer la compréhension des systèmes COBOL, surmontant les défis liés à la taille des codes et la documentation limitée, avec des performances nettement supérieures au baseline dans l'explication des fonctions et fichiers COBOL.
2025-07-02Computer Science Education in the Age of Generative AICet article explore comment les outils d'IA générative, tels que les grands modèles de langage, transforment l'éducation en informatique, tout en proposant des recommandations pour intégrer ces technologies dans les curricula tout en préservant l'intégrité académique.
2025-07-01Serving LLMs in HPC Clusters: A Comparative Study of Qualcomm Cloud AI 100 Ultra and High-Performance GPUsCette étude évalue l'efficacité énergétique et la performance de l'accélérateur QAic de Qualcomm pour l'inférence des grands modèles linguistiques, comparé aux GPU leaders de NVIDIA et AMD, démontrant le potentiel du QAic pour les applications HPC dans l'écosystème de la Plateforme Nationale de Recherche.
2025-07-01Twill: Scheduling Compound AI Systems on Heterogeneous Mobile Edge PlatformsLes chercheurs ont développé Twill, un cadre d'exécution permettant de gérer efficacement les inférences simultanées des systèmes d'IA composés sur des plateformes mobiles hétérogènes, réduisant en moyenne de 54 % la latence d'inférence tout en respectant les contraintes énergétiques.
2025-07-01TeamCMU at Touché: Adversarial Co-Evolution for Advertisement Integration and Detection in Conversational SearchCet article explore l'intégration d'annonces publicitaires dans les systèmes de recherche conversationnelle basés sur les modèles de langage étendu, proposant une méthode modulaire pour gérer les publicités et utilisant des données synthétiques pour optimiser la détection et l'intégration discrète des annonces. Les résultats révèlent une amélioration notable de la discrétion des intégrations publicitaires grâce à un affinement supervisé et une approche d'échantillonnage optimisée.
2025-07-01ChatHLS: Towards Systematic Design Automation and Optimization for High-Level SynthesisLes chercheurs présentent ChatHLS, un flux de travail automatisé en synthèse à haut niveau (HLS) utilisant des modèles de langage pour améliorer la conception matérielle, offrant une efficacité supérieure et des optimisations significatives par rapport aux approches existantes.
2025-07-01Toward Edge General Intelligence with Multiple-Large Language Model (Multi-LLM): Architecture, Trust, and OrchestrationCette étude examine l'intégration de systèmes multi-LLM dans l'informatique de périphérie pour améliorer la performance et l'adaptabilité des applications d'IA, en se concentrant sur l'orchestration dynamique et la fiabilité dans des environnements aux ressources limitées.
2025-07-01Towards a Playground to Democratize Experimentation and Benchmarking of AI Agents for Network TroubleshootingDes chercheurs soulignent l'efficacité des grands modèles de langage pour le dépannage des réseaux et appellent à une plateforme de référence standardisée et ouverte pour évaluer ces agents IA avec un effort opérationnel minimal.
Interaction
DateTitreRésumé
2025-07-03Are You Listening to Me? Fine-Tuning Chatbots for Empathetic DialogueLes chercheurs ont étudié comment les grands modèles de langage, comme ChatGPT et Gemini, génèrent des conversations émotionnellement riches et ont découvert que, bien que ces agents puissent imiter la structure émotionnelle prévue, il reste des divergences importantes dans l'empathie perçue, soulignant le besoin d'une approche combinant automatisation et intervention humaine pour développer des agents conversationnels véritablement empathiques.
2025-07-03Who's Sorry Now: User Preferences Among Rote, Empathic, and Explanatory Apologies from LLM ChatbotsLes chercheurs ont examiné les préférences des utilisateurs pour différents types d'excuses émises par des chatbots lors d'erreurs courantes, révélant que les excuses explicatives sont généralement préférées, bien que le contexte et l'utilisateur influencent ces préférences.
2025-07-02Bridging UI Design and chatbot Interactions: Applying Form-Based Principles to Conversational AgentsLes chercheurs proposent d'intégrer les métaphores des interfaces graphiques telles que "Submit" et "Reset" dans les agents conversationnels pour améliorer la gestion des interactions multi-étapes, réduisant ainsi la confusion des utilisateurs et alignant ces interactions sur la logique des systèmes dorsaux. L'approche est démontrée dans des scénarios de réservation d'hôtels et de gestion de clients, montrant des améliorations en cohérence des tâches, satisfaction des utilisateurs et efficacité.
2025-07-02DIY-MKG: An LLM-Based Polyglot Language Learning SystemLes chercheurs ont développé DIY-MKG, un système open-source conçu pour soutenir l'apprentissage polyglotte, permettant aux utilisateurs de créer des graphes de connaissances vocabulaire personnalisés et adaptatifs en utilisant des LLMs, avec des quiz dynamiques et un retour utilisateur pour améliorer l'engagement et l'exactitude.
2025-07-02EvalAssist: A Human-Centered Tool for LLM-as-a-JudgeLes chercheurs présentent EvalAssist, un système pour simplifier l'utilisation des modèles de langage comme évaluateurs, permettant la création et le partage de critères d'évaluation personnalisés et l'utilisation de pipelines basés sur ces modèles pour détecter les risques dans les résultats générés par l'IA.
2025-07-01Rethinking Group Recommender Systems in the Era of Generative AI: From One-Shot Recommendations to Agentic Group Decision SupportCet article remet en question les hypothèses actuelles des systèmes de recommandation de groupes et suggère une nouvelle approche en intégrant des assistants IA génératifs, comme ChatGPT, pour améliorer l'interaction et la prise de décision collective, favorisant ainsi leur adoption dans la réalité.
2025-07-01Reliable Annotations with Less Effort: Evaluating LLM-Human Collaboration in Search ClarificationsLes modèles de langage de grande taille (LLM) peinent à atteindre des performances humaines dans des tâches d'annotation complexes et subjectives; l'intégration d'humains grâce à un workflow HITL améliore considérablement leur fiabilité tout en réduisant l'effort humain de 45%.
Confiance
DateTitreRésumé
2025-07-03Meta-Fair: AI-Assisted Fairness Testing of Large Language ModelsCet article propose Meta-Fair, une méthode automatisée pour tester l'équité des grands modèles de langage, utilisant des relations métamorphiques pour découvrir les biais grâce à des modifications contrôlées des invites, avec une précision moyenne de 92% et révélation de biais dans 29% des exécutions.
2025-07-03MPF: Aligning and Debiasing Language Models post Deployment via Multi Perspective FusionL'article présente Multiperspective Fusion, un cadre novateur pour l'alignement des grands modèles de langage visant à atténuer le biais en utilisant des distributions baselines interprétables, démontrant une réduction de l'erreur de calibration et une meilleure généralisation sans nécessiter un affinage extensif.
2025-07-03Moral Responsibility or Obedience: What Do We Want from AI?Cet article plaide pour un changement dans les pratiques de sécurité de l'IA en évaluant l'émergence de capacités de raisonnement éthique, plutôt que de considérer l'obéissance comme le seul indicateur de comportement éthique.
2025-07-03Is Reasoning All You Need? Probing Bias in the Age of Reasoning Language ModelsLes modèles de langage de raisonnement révèlent une vulnérabilité accrue aux biais sociaux, malgré leurs capacités avancées en raisonnement, remettant en question l'idée que le raisonnement améliore la robustesse des modèles d'IA.
2025-07-03Visual Contextual Attack: Jailbreaking MLLMs with Image-Driven Context InjectionDes chercheurs ont développé une nouvelle méthode appelée VisCo Attack qui utilise des informations visuelles pour contourner la sécurité des modèles de langage multimodaux, atteignant un taux de succès de 85% sur un benchmark de sécurité et démontrant une menace significative pour le déploiement de ces modèles dans des environnements ouverts.
2025-07-02ICLShield: Exploring and Mitigating In-Context Learning Backdoor AttacksLes chercheurs présentent ICLShield, un mécanisme de défense pour les grands modèles linguistiques contre les attaques sophistiquées via l'apprentissage contextuel, atteignant des performances de défense optimales grâce à l'ajustement dynamique des ratios de préférence de concept.
2025-07-02Evaluating LLM Agent Collusion in Double AuctionsDans cet article, les chercheurs explorent comment les modèles de langage étendu (LLMs) peuvent encourager la collusion entre agents vendeurs dans des marchés d'enchères mis en simulation, soulignant les implications économiques et éthiques cruciales de leur utilisation.
2025-07-02SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore MechanismLes chercheurs présentent SafePTR, un cadre de défense sans entraînement qui améliore la sécurité des modèles de langage multimodal en supprimant précisément des tokens nuisibles, réduisant ainsi les risques de piratage tout en préservant l'efficacité.
2025-07-02GPT, But Backwards: Exactly Inverting Language Model OutputsDes chercheurs ont développé SODA, un algorithme basé sur les gradients, pour reconstruire précisément les entrées ayant généré des sorties de modèles de langage, avec un succès notable sur des séquences courtes tout en respectant les pratiques actuelles de déploiement pour prévenir les abus.
2025-07-02Graph Representation-based Model Poisoning on Federated LLMs in CyberEdge NetworksCet article examine les limites des mécanismes de défense des modèles de langage fédérés face aux attaques par empoisonnement, en particulier via le paradigme novateur du Graph Representation-Based Model Poisoning (GRMP), et propose un plan de recherche pour renforcer leur robustesse future.
2025-07-02AdamMeme: Adaptively Probe the Reasoning Capacity of Multimodal Large Language Models on HarmfulnessLes chercheurs introduisent AdamMeme, un cadre d'évaluation dynamique pour analyser comment les grands modèles de langage multimodal comprennent la nocivité des mèmes, révélant des faiblesses spécifiques grâce à une mise à jour continue des données.
2025-07-02MGC: A Compiler Framework Exploiting Compositional Blindness in Aligned LLMs for Malware GenerationLes modèles de langage larges facilitent le développement de logiciels, y compris malveillants, en rendant possible la création de malwares via des tâches bénignes décomposées. Le Malware Generation Compiler (MGC) démontre comment exploiter cette vulnérabilité en générant du code malveillant efficace, révélant ainsi des lacunes dans les systèmes d'alignement actuels des IA.
2025-07-02Evaluating the Promise and Pitfalls of LLMs in Hiring DecisionsLes chercheurs montrent que leur modèle spécifique au domaine, "Match Score", surpasse les modèles de langage généraux en termes d'exactitude et d'équité pour le recrutement, soulignant l'importance de la modélisation adaptée et de l'audit des biais pour éviter les préjugés systémiques lors de l'utilisation d'IA dans des domaines sensibles.
2025-07-02McBE: A Multi-task Chinese Bias Evaluation Benchmark for Large Language ModelsLes chercheurs ont développé un outil d'évaluation des biais, McBE, pour les modèles de langage chinois, qui offre une analyse multicatégories et multi-tâches tout en révélant les biais dans divers grands modèles de langage.
2025-07-01Pitfalls of Evaluating Language Models with Open BenchmarksL’étude met en lumière les risques des benchmarks ouverts des modèles de langage, en démontrant que des modèles « à tricher » peuvent atteindre des résultats élevés malgré une généralisation limitée, soulignant la nécessité de réviser les pratiques d'évaluation pour garantir la fiabilité des évaluations de modèles linguistiques.
2025-07-01Generative Exaggeration in LLM Social Agents: Consistency, Bias, and ToxicityDes chercheurs ont étudié comment les grands modèles de langage simulent les discours politiques sur les réseaux sociaux, révélant que ces modèles amplifient les traits saillants au-delà des comportements réels et introduisent des biais structurels, remettant en question leur fiabilité dans la modération de contenu et la modélisation de politiques.
2025-07-01SAFER: Probing Safety in Reward Models with Sparse AutoencoderLes chercheurs introduisent SAFER, un cadre innovant utilisant des Autoencodeurs Sparses pour interpréter et améliorer les modèles de récompense, visant à aligner efficacement les modèles de langage avec les valeurs humaines tout en garantissant la sécurité et la transparence.
Recherche
DateTitreRésumé
2025-07-03Toward a Robust and Generalizable Metamaterial Foundation ModelDes chercheurs présentent le modèle MetaFO, un modèle de fondation basé sur un transformateur bayésien, pour l'innovation en métamatériaux, capable de prédictions probabilistes et de conception inverse non linéaire sans données spécifiques, ouvrant de nouvelles possibilités dans la conception de matériaux.
2025-07-03System-performance and cost modeling of Large Language Model training and inferenceCet article propose une méthodologie de modélisation des performances-coûts pour l'entraînement et l'inférence des grands modèles de langage, intégrant des innovations récentes pour optimiser les systèmes de calcul et de communication, en vue d'améliorer le design des systèmes informatiques futurs et le co-développement matériel-logiciel.
2025-07-03Continual Gradient Low-Rank Projection Fine-Tuning for LLMsLes chercheurs proposent GORP, une nouvelle stratégie de formation qui combine des paramètres complets et de faible rang pour l'apprentissage continu des grands modèles linguistiques, améliorant ainsi l'efficacité et l'apprentissage sans oublier catastrophiquement.
2025-07-03Clarifying Before Reasoning: A Coq Prover with Structural ContextLes chercheurs démontrent qu'en ajoutant un contexte sémantique structuré aux modèles de langage, la clarté des tâches est considérablement améliorée, ce qui augmente le succès des démonstrations dans le Coq jusqu'à 45,8%, surpassant les méthodes existantes.
2025-07-03Transformers Don't Need LayerNorm at Inference Time: Scaling LayerNorm Removal to GPT-2 XL and the Implications for Mechanistic InterpretabilityLes chercheurs démontrent que les couches de normalisation par couche (LN) peuvent être retirées des modèles GPT-2 avec une augmentation minime de la perte de validation, ce qui ouvre la voie à une meilleure interprétation mécaniste et à une compréhension approfondie des modèles de langage sans LN.
2025-07-03Revisiting Active Learning under (Human) Label VariationCet article propose un cadre conceptuel pour intégrer la variation humaine des labels (HLV) dans l'apprentissage actif, en revoyant les hypothèses fondamentales sur la vérité des données annotées et en suggérant l'utilisation des grands modèles linguistiques comme annotateurs.
2025-07-03Strategic Intelligence in Large Language Models: Evidence from evolutionary Game TheoryLes modèles de langage de grande taille (LLM) démontrent une intelligence stratégique dans des environnements compétitifs, comme révélé par des tournois évolutifs du Dilemme du Prisonnier Itéré, où ils montrent des stratégies distinctes influençant leur succès dans des contextes incertains.
2025-07-03FlowSpec: Continuous Pipelined Speculative Decoding for Efficient Distributed LLM InferenceL'article présente FlowSpec, un cadre de décodage spéculatif basé sur un arbre qui améliore l'efficacité de l'inférence distribuée des grands modèles de langage à la périphérie du réseau, avec une accélération notable du processus par rapport aux méthodes existantes.
2025-07-03VRAgent-R1: Boosting Video Recommendation with MLLM-based Agents via Reinforcement LearningL'article présente VRAgent-R1, un nouveau paradigme qui utilise des agents pour améliorer la compréhension multimodale des recommandations vidéo, montrant une nette amélioration des performances par rapport aux simulations classiques.
2025-07-03AIGI-Holmes: Towards Explainable and Generalizable AI-Generated Image Detection via Multimodal Large Language ModelsDes chercheurs ont développé le jeu de données Holmes-Set et le modèle AIGI-Holmes pour améliorer la détection des images générées par l'IA, en offrant des explications vérifiables par l'homme, tout en optimisant la généralisation des modèles à travers une approche d'annotation novatrice et un cadre d'entraînement en trois étapes.
2025-07-03On the Convergence of Large Language Model Optimizer for Black-Box Network ManagementLes chercheurs ont établi une base théorique pour le cadre d'optimisation des grands modèles de langage (LLMO) dans la gestion de réseaux complexes, en prouvant sa convergence et en validant ses performances à travers des simulations numériques.
2025-07-03Bourbaki: Self-Generated and Goal-Conditioned MDPs for Theorem ProvingLes chercheurs ont introduit les sG-MDPs, un cadre novateur où les agents génèrent leurs sous-objectifs pour améliorer le raisonnement logique des LLMs dans la preuve de théorèmes automatisée, obtenant des résultats de pointe avec Bourbaki (7B) sur PutnamBench.
2025-07-03Early Signs of Steganographic Capabilities in Frontier LLMsLes chercheurs analysent les capacités naissantes de stéganographie des grands modèles linguistiques, soulignant qu'ils peuvent encoder des messages ou des raisonnements dans leurs sorties sous certaines conditions, bien que ces capacités ne soient pour l'instant pas suffisantes pour échapper à une surveillance bien conçue.
2025-07-03Fast and Simplex: 2-Simplicial Attention in TritonL'article explore l'efficacité des Transformateurs 2-simpliciaux, qui augmentent l'efficacité des tokens et surpassent les modèles traditionnels de dot-product sur des tâches de mathématiques, de codage et de raisonnement, en modifiant les lois de l'échelle pour le savoir et le raisonnement.
2025-07-03DeSTA2.5-Audio: Toward General-Purpose Large Audio Language Model with Self-Generated Cross-Modal AlignmentLes chercheurs présentent DeSTA2.5-Audio, un modèle génératif audio-langage permettant une perception auditive robuste sans ajustement spécifique des instructions, grâce à une stratégie d'alignement croisé auto-générée préservant les capacités linguistiques du modèle source, et démontrent sa performance remarquable sur divers benchmarks audio-langage.
2025-07-03Self-Correction Bench: Revealing and Addressing the Self-Correction Blind Spot in LLMsLes chercheurs identifient un "angle mort" de l'auto-correction chez les modèles de langage, où ils échouent à corriger leurs propres erreurs, et proposent le Self-Correction Bench pour étudier ce phénomène, révélant que l'ajout de "Wait" active la capacité et réduit les angles morts de 89,3 %.
2025-07-03Multimodal Mathematical Reasoning with Diverse Solving PerspectiveLes chercheurs présentent MathV-DP, un ensemble de données visant à enrichir le raisonnement des modèles de langage multimodal en mathématiques, et Qwen-VL-DP, un modèle optimisé qui excelle en précision et diversité générative grâce à sa capacité à intégrer des perspectives de solution variées.
2025-07-03SynapseRoute: An Auto-Route Switching Framework on Dual-State Large Language ModelLes chercheurs proposent SynapseRoute, un cadre de routage dynamique qui optimise la précision et le coût en assignant intelligemment des questions médicales aux modes de raisonnement adaptés, démontrant une amélioration de l'efficacité et une réduction du temps d'inférence sans sacrifier l'exactitude.
2025-07-03ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement LearningL'article présente "Self-Explanation Policy Optimization (ExPO)", une nouvelle méthode qui génère des échantillons de raisonnement plus efficaces pour les modèles linguistiques en utilisant des réponses vérifiées, améliorant leur performance sur des tâches complexes par rapport aux démonstrations d'experts.
2025-07-03StepHint: Multi-level Stepwise Hints Enhance Reinforcement Learning to ReasonL'article propose un nouvel algorithme, StepHint, pour améliorer les capacités de raisonnement des grands modèles de langage en s'appuyant sur des indices progressifs pour surmonter les problèmes d'efficacité de formation et de stagnation de l'exploration, surpassant ainsi les méthodes existantes sur plusieurs benchmarks mathématiques.
2025-07-03MOTIF: Modular Thinking via Reinforcement Fine-tuning in LLMsLes chercheurs ont développé MOTIF, une méthode d'entraînement en renforcement qui permet aux modèles de langage de raisonner par plusieurs cycles, améliorant l'efficacité contextuelle et la précision des résultats avec une utilisation minimale d'échantillons.
2025-07-03Bootstrapping Grounded Chain-of-Thought in Multimodal LLMs for Data-Efficient Model AdaptationLes modèles de langage multimodal (MLLM) peinent à s'adapter aux tâches visuelles spécialisées sans grands ensembles de données, mais l'approche Grounded Chain-of-Thought (GCoT) injecte des informations de base pour renforcer l'adaptation en situation de données limitées.
2025-07-02La RoSA: Enhancing LLM Efficiency via Layerwise Rotated Sparse ActivationLaRoSA est une nouvelle méthode d'activation parcimonieuse qui optimise l'efficacité des modèles de langage large en utilisant des rotations orthogonales par couche, permettant une accélération fiable du temps d'inférence sans nécessiter de formation supplémentaire ni de taille de prune empirique.
2025-07-02Reasoner for Real-World Event Detection: Scaling Reinforcement Learning via Adaptive Perplexity-Aware Sampling StrategyLes chercheurs présentent le cadre APARL, basé sur le renforcement de la perplexité adaptative, qui améliore la détection d'événements anormaux dans les dialogues de service client grâce à une architecture d'apprentissage dynamique et obtient des résultats supérieurs en adaptabilité.
2025-07-02SpeechAccentLLM: A Unified Framework for Foreign Accent Conversion and Text to SpeechCet article explore l'intégration des techniques des grands modèles de langage dans la conversion d'accent étranger en parole, introduisant le modèle novateur SpeechCodeVAE pour une meilleure fidélité et cohérence, et proposant SpeechRestorer pour affiner la sortie générée en améliorant la continuité prosodique.
2025-07-02Activation Reward Models for Few-Shot Model AlignmentLes chercheurs présentent une méthode innovante appelée Activation Reward Models pour aligner les modèles de langage génératifs sur les préférences humaines, surpassant les approches traditionnelles grâce à l'utilisation de signaux de récompense bien alignés avec une supervision minimale. Cette méthode démontre son efficacité en évitant les comportements de détournement de récompense, crucial pour les applications sensibles à la sécurité, et établit une nouvelle référence de performance dans ce domaine.
2025-07-02RALLY: Role-Adaptive LLM-Driven Yoked Navigation for Agentic UAV SwarmsUn nouvel algorithme, RALLY, améliore la navigation en essaim de drones en combinant modèles de langage et apprentissage par renforcement multi-agent, offrant une meilleure couverture de tâche et adaptabilité des rôles.
2025-07-02Challenges & Opportunities with LLM-Assisted Visualization RetargetingL'article évalue comment les modèles de langage avancés peuvent automatiser l'adaptation de visualisations de données complexes, en comparant deux méthodes et en identifiant leurs limites, ce qui pourrait révolutionner la simplification du processus de retargeting des données.
2025-07-02A Large Language Model for Chemistry and Retrosynthesis PredictionsDes chercheurs ont développé ECNU-ChemGPT, un modèle de langage spécialisé en chimie, qui surpasse les modèles généralistes grâce à une adaptation fine aux données du domaine et une planification rétrosynthétique précise, atteignant 68,3% de précision sur le jeu de données USPTO_50K et reconstruisant avec succès 13 voies expérimentales complètes pour des molécules pharmaceutiques.
2025-07-02Agent-as-Tool: A Study on the Hierarchical Decision Making with Reinforcement LearningDes chercheurs ont développé un cadre hiérarchique, Agent-as-tool, qui sépare les processus d'appel d'outil et de raisonnement, et surpassent d'autres modèles en termes de correspondance exacte, améliorant ainsi l'efficacité des grands modèles de langage.
2025-07-02AVC-DPO: Aligned Video Captioning via Direct Preference OptimizationUn nouveau cadre de post-formation, AVC-DPO, améliore la qualité des légendes vidéo générées par les modèles de langue multimodaux en alignant les préférences humaines, atteignant une performance remarquable lors de la LOVE@CVPR'25 Workshop Track 1A.
2025-07-02Efficient Out-of-Scope Detection in Dialogue Systems via Uncertainty-Driven LLM RoutingLes chercheurs ont conçu un nouveau cadre modulaire qui intègre la modélisation de l'incertitude avec des modèles de langage avancés pour améliorer la détection des intentions hors-sujet dans les systèmes de dialogue, offrant une efficacité et une précision accrues.
2025-07-02Is External Information Useful for Stance Detection with LLMs?Cet article révèle que l'intégration d'informations externes, telles que des extraits de Wikipédia, réduit souvent la performance des modèles de langage de grande taille pour la détection de position, contrairement aux conclusions antérieures pour les systèmes basés sur BERT.
2025-07-02Emotionally Intelligent Task-oriented Dialogue Systems: Architecture, Representation, and OptimisationLes chercheurs ont développé LUSTER, un système basé sur des grands modèles de langage (LLM) intégrant l'apprentissage par renforcement pour optimiser les dialogues orientés vers des tâches, tout en tenant compte des sentiments utilisateurs et de la réussite des tâches à long terme, montrant ainsi des avancées dans la résilience et l'intelligence émotionnelle des agents conversationnels.
2025-07-02Chart Question Answering from Real-World Analytical NarrativesLes chercheurs ont créé un nouveau jeu de données pour répondre aux questions à partir de graphiques, basé sur des carnets de visualisation, mettant en lumière les défis de l'intelligence artificielle face à des scénarios d'analyse réels, auquel GPT-4.1 a obtenu 69,3 % de précision.
2025-07-02DaiFu: In-Situ Crash Recovery for Deep Learning SystemsLes chercheurs ont développé DaiFu, un cadre de récupération in situ pour systèmes d'apprentissage profond, permettant des mises à jour dynamiques instantanées après un crash, réduisant ainsi le temps de restauration jusqu'à 1372 fois par rapport aux solutions actuelles, avec un impact négligeable sur les performances.
2025-07-02SAILViT: Towards Robust and Generalizable Visual Backbones for MLLMs via Gradual Feature RefinementSAILViT, un Vision Transformer amélioré par apprentissage progressif, surmonte les limitations de l'interaction multimodale des MLLMs, offrant robustesse et performance accrue dans les tâches en aval.
2025-07-02AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-TrainingAsyncFlow, un cadre de streaming RL asynchrone, améliore l'efficacité du post-entraînement des grands modèles de langage en résolvant les problèmes liés aux goulots d'étranglement de l'évolutivité et à l'inactivité computationnelle tout en étant adaptable et modulable.
2025-07-02Blending Supervised and Reinforcement Fine-Tuning with Prefix SamplingCet article propose une approche hybride, Prefix-RFT, qui combine les forces de l'apprentissage supervisé et du renforcement pour améliorer la formation des modèles de langage, surpassant les méthodes traditionnelles tout en étant facilement intégrable aux frameworks open-source existants.
2025-07-02Token Communication in the Era of Large Models: An Information Bottleneck-Based ApproachLes chercheurs introduisent UniToCom, un paradigme de communication unifié utilisant les tokens pour le traitement et la transmission, avec un principe de "bottleneck" pour améliorer l'efficacité et réduire la complexité, en optimisant la compréhension multimodale via un modèle de langage large.
2025-07-02Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-TrainingL'article présente BBoxER, une méthode d'optimisation en boîte noire évolutive pour améliorer la robustesse et la confidentialité des grands modèles linguistiques, en apportant des garanties théoriques de généralisation et en offrant une alternative aux méthodes traditionnelles basées sur les gradients.
2025-07-02Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image SynthesisLe modèle DisCon propose une approche novatrice en utilise les tokens discrets comme signaux conditionnels pour prédire des représentations continues, réduisant ainsi la perte d'information et surpassant les méthodes autoregressives existantes en termes de fidélité d'image.
2025-07-02MuRating: A High Quality Data Selecting Approach to Multilingual Large Language Model PretrainingLes chercheurs présentent MuRating, un cadre évolutif qui transfère les signaux de qualité des données en anglais vers 17 langues cibles, améliorant ainsi la performance des modèles de langage multilingues en sélectionnant des contenus équilibrés pour préentraîner un modèle LLaMA de 1,2 milliard de paramètres, surpassant les méthodes actuelles sur des évaluations multilingues et des tâches intensives en connaissances.
2025-07-02HCNQA: Enhancing 3D VQA with Hierarchical Concentration Narrowing SupervisionLes chercheurs proposent HCNQA, un modèle de question-réponse visuelle 3D, utilisant une méthode de supervision hiérarchique pour améliorer le cheminement de raisonnement et éviter les raccourcis superficiels, démontrant des résultats expérimentaux prometteurs.
2025-07-02LoRA Fine-Tuning Without GPUs: A CPU-Efficient Meta-Generation Framework for LLMsLes chercheurs proposent une nouvelle méthode de fine-tuning pour les modèles de langage sur des CPUs standard, permettant des mises à jour efficaces en utilisant des adaptateurs pré-entraînés, offrant une alternative accessible aux utilisateurs avec des ressources informatiques limitées.
2025-07-02APRMCTS: Improving LLM-based Automated Program Repair with Iterative Tree SearchAPRMCTS utilise la recherche itérative pour améliorer la réparation automatisée de programmes basée sur des modèles de langage, augmentant l'efficacité de la recherche de correctifs et surpassant les méthodes existantes en corrigeant plus de bugs à moindre coût.
2025-07-02Low-Perplexity LLM-Generated Sequences and Where To Find ThemUne étude explore comment les modèles de langage géant (LLM) utilisent leurs données d'entraînement, en analysant des séquences à faible perplexité pour tracer leur origine, révélant que de nombreuses séquences ne peuvent être retracées, mais que celles qui le peuvent montrent des tendances sur la mémoire verbatim, contribuant à mieux comprendre l'impact des données d'entraînement sur le comportement des LLMs.
2025-07-02Eka-Eval : A Comprehensive Evaluation Framework for Large Language Models in Indian LanguagesLes chercheurs ont développé EKA-EVAL, un cadre d'évaluation unifié pour les modèles de langage en Inde, proposant plus de 35 benchmarks, dont 10 spécifiques à l'Inde, améliorant ainsi l'évaluation multilingue et réduisant les obstacles au benchmarking multilingue.
2025-07-02Improving GANs by leveraging the quantum noise from real hardwareCet article explore l'intégration de prior quantique dans les GANs, réduisant significativement le FID et exploitant les imperfections des dispositifs quantiques pour améliorer la modélisation générative, sans modifier les architectures réseau existantes.
2025-07-02MiCoTA: Bridging the Learnability Gap with Intermediate CoT and Teacher AssistantsLes chercheurs présentent MiCoTA, un cadre qui améliore la capacité de raisonnement des petits modèles de langage en utilisant des modèles de taille intermédiaire comme assistants pédagogiques, permettant ainsi aux petits modèles de surmonter leurs limites de performance sur des tâches complexes.
2025-07-02High-Layer Attention Pruning with RescalingLes chercheurs ont développé un nouvel algorithme d'élagage pour les modèles de langue géants, ciblant stratégiquement les têtes d'attention dans les couches supérieures pour compenser des effets néfastes sur les représentations de tokens, surpassant les méthodes existantes en performances, surtout dans les tâches de génération.
2025-07-02AI4Research: A Survey of Artificial Intelligence for Scientific ResearchCet article propose une enquête exhaustive sur l'IA appliquée à la recherche scientifique, introduisant une taxonomie systématique des tâches principales, identifiant des lacunes de recherche et compilant des ressources pratiques pour impulser des avancées innovantes.
2025-07-02Reasoning to Edit: Hypothetical Instruction-Based Image Editing with Visual ReasoningL'article présente Reason50K, un ensemble de données pour la formation et l'évaluation de l'édition d'image basée sur des instructions hypothétiques complexes, et ReasonBrain, un cadre innovant aidant à inférer ces instructions grâce à des modèles de langage multimodal et un module d'extraction de détails visuels et textuels.
2025-07-02Gradient-Adaptive Policy Optimization: Towards Multi-Objective Alignment of Large Language ModelsDes chercheurs ont développé le GAPO, une technique de réglage fin qui optimise simultanément divers objectifs de préférences humaines, pour aligner les grands modèles de langage, en utilisant une approche de descente de gradient adaptative et prouvée empiriquement supérieure sur le modèle Mistral-7B.
2025-07-02The Thin Line Between Comprehension and Persuasion in LLMsCet article explore la capacité des grands modèles de langage à engager des débats convaincants, tout en révélant leurs limites dans la compréhension profonde des structures dialogueuses et du contexte pragmatique.
2025-07-02Kwai Keye-VL Technical ReportLes chercheurs introduisent Kwai Keye-VL, un modèle de base multimodal de 8 milliards de paramètres optimisé pour comprendre les vidéos courtes remplies d'informations, en surpassant les performances actuelles grâce à un vaste ensemble de données et une nouvelle méthodologie d'apprentissage.
2025-07-02Large Language Models for Crash Detection in Video: A Survey of Methods, Datasets, and ChallengesCet article examine les méthodes récentes utilisant des modèles de grands langages pour détecter les accidents à partir de flux vidéo, proposant une taxonomie des stratégies de fusion, une analyse des architectures de modèles, et soulevant des défis et opportunités futurs dans ce domaine en croissance.
2025-07-02Reasoning on a Budget: A Survey of Adaptive and Controllable Test-Time Compute in LLMsCet article explore des stratégies pour améliorer l'efficacité du calcul des modèles de langage lors du raisonnement, en introduisant une taxonomie binaire pour distinguer les méthodes à budget fixe et celles adaptatives, tout en évaluant les compromis entre performance et usage de tokens.
2025-07-02Measuring Scientific Capabilities of Language Models with a Systems Biology Dry LabLes chercheurs ont créé SciGym, un benchmark qui évalue les capacités des modèles de langage (LLMs) à concevoir et analyser des expériences scientifiques dans des tâches de découverte ouvertes, en simulant des expériences en laboratoire sec pour contourner les coûts élevés des labos humides en biologie.
2025-07-02The Future is Agentic: Definitions, Perspectives, and Open Challenges of Multi-Agent Recommender SystemsCet article explore comment les modèles de langage évoluent en agents capables de planification et collaboration, transformant ainsi les systèmes de recommandation ; il propose un cadre unifié pour modéliser ces agents et aborde les défis associés, tout en invitant la communauté à développer des outils pour cette nouvelle autonomie.
2025-07-02What Neuroscience Can Teach AI About Learning in Continuously Changing EnvironmentsCet article explore comment l'IA pourrait s'inspirer des capacités d'apprentissage adaptatif observées chez les animaux pour améliorer l'apprentissage en contexte et en continu, en intégrant des perspectives de neurosciences et d'intelligence artificielle dans le domaine émergent de la NeuroAI.
2025-07-02When LLMs Disagree: Diagnosing Relevance Filtering Bias and Retrieval Divergence in SDG SearchLes modèles de langage tels que LLaMA et Qwen montrent des désaccords systématiques dans l'étiquetage de la pertinence des documents, ce qui peut influencer la récupération d'informations, en particulier sur les abstracts liés aux Objectifs de Développement Durable. Ces désaccords, prévisibles et non aléatoires, peuvent être exploités pour affiner l'évaluation des recherches thématiques ou à enjeux politiques.
2025-07-02Reasoning or Not? A Comprehensive Evaluation of Reasoning LLMs for Dialogue SummarizationUne étude évalue l'efficacité des modèles de raisonnement étape par étape par rapport aux modèles non-raisonnants pour la synthèse des dialogues, révélant que le raisonnement explicite ne garantit pas des résumés plus concis ni plus précis, soulignant ainsi la nécessité de stratégies de modélisation ciblées.
2025-07-02Data Diversification Methods In Alignment Enhance Math Performance In LLMsDes chercheurs explorent comment la diversification des données de préférence dans l'optimisation des modèles linguistiques peut améliorer leur raisonnement mathématique, la méthode Diversified-ThinkSolve montrant des gains notables avec un coût informatique minimal.
2025-07-01Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM ReasoningLes chercheurs ont découvert que les modèles de langage qui excellent en mathématiques ne parviennent souvent pas à transférer leurs compétences à d'autres domaines, avec un apprentissage par renforcement montrant une meilleure généralisation que le réglage supervisé, soulignant la nécessité de revoir les méthodes de formation postérieure.
2025-07-01Read the Docs Before Rewriting: Equip Rewriter with Domain Knowledge via Continual Pre-trainingLes chercheurs introduisent le système de réécriture R\&R, qui optimise les performances des modèles de question-réponse basés sur RAG dans les domaines spécialisés, en s'appuyant sur un pré-entraînement continu avec des documents professionnels, améliorant ainsi le lien entre requêtes et documents.
2025-07-01Quantize-Sample-and-Verify: LLM Acceleration via Adaptive Edge-Cloud Speculative DecodingLes chercheurs présentent une stratégie quantification-échantillonnage (Q-S) pour améliorer l'efficacité du décodage spéculatif entre périphériques de bord et le cloud, optimisant le débit des tokens en ajustant dynamiquement la précision de quantification selon l'incertitude sémantique et les conditions de canal.
2025-07-01GANs Secretly Perform Approximate Bayesian Model SelectionLes chercheurs présentent ici une nouvelle interprétation des GANs en tant que modèles génératifs probabilistes, proposant des stratégies d'optimisation et de régularisation basées sur le principe du rasoir d'Occam pour améliorer la performance et la généralisation de ces modèles.
2025-07-01Cognitive Load-Aware Inference: A Neuro-Symbolic Framework for Optimizing the Token Economy of Large Language ModelsCet article présente le cadre de référence CLAI, inspiré de la théorie de la charge cognitive, pour optimiser l'inférence des grands modèles de langage, réduisant ainsi la consommation de ressources jusqu'à 45% sans compromettre la précision.