Image d'un prisme

Prisme sur la recherche en IA générative

L'idée du "prisme" est de décomposer, d'analyser et de révéler différentes composantes de la recherche en IA générative. Ce prisme permet de projeter 4 composantes principales pour permettre d'appréhender les tendances de fond. Ces 4 composantes sont Applications au monde réel, Interaction Humain - IA générative, Confiance et Recherche. Il s'agit d'un prisme personnel qui doit être interprété comme tel, il y a bien d'autres prismes ou analyses possibles. La date de dernière mise à jour apparait sur le graphique (minimum toutes les semaines). Travail hybride humain (catégorisation, identification des tendances) + IA Gen (résumés en français des papiers de recherche). Seule la dernière semaine est détaillée en-dessous du tableau.
Image Prisme

Semaine 2025-10 (10/03/2025 - 16/03/2025)

Applications
DateTitreRésumé
2025-03-14BannerAgency: Advertising Banner Design with Multimodal LLM AgentsL'article présente BannerAgency, un système novateur utilisant des modèles multimodaux pour automatiser la création de bannières publicitaires éditables, personnalisées selon l'identité de marque et les objectifs des annonceurs, tout en simplifiant le processus pour les concepteurs.
2025-03-14DeepSeek Powered Solid Dosage Formulation Design and DevelopmentCet article explore comment les grands modèles de langage et les technologies de pointe peuvent révolutionner la conception de médicaments en facilitant l'extraction des connaissances, la prédiction de profils de dissolution et le design inverse des propriétés physiques, tout en validant ces approches dans des contextes réels.
2025-03-14Rule-Guided Feedback: Enhancing Reasoning by Enforcing Rule Adherence in Large Language ModelsLes chercheurs présentent Rule-Guided Feedback (RGF), un cadre de rétroaction structuré qui améliore les performances des grands modèles de langage en imposant l'adhérence à des règles et en stimulant la recherche proactive d'information, prouvant son efficacité dans divers domaines tels que la rédaction de sonnets et la classification de données.
2025-03-14Annotating Scientific Uncertainty: A comprehensive model using linguistic patterns and comparison with existing approachesUnScientify est un système utilisant des techniques traditionnelles pour détecter l'incertitude scientifique dans les textes académiques avec une précision notable de 0.808, surpassant les modèles linguistiques avancés et soulignant leur pertinence dans des contextes exigeant efficacité et adaptabilité.
2025-03-14Optimizing Large Language Models for Detecting Symptoms of Comorbid Depression or Anxiety in Chronic Diseases: Insights from Patient MessagesCette étude explore comment les modèles de langage peuvent détecter la dépression et l'anxiété chez les patients diabétiques à partir de messages sécurisés, Llama 3.1 405B se distinguant par sa précision en approche zéro-shot, ouvrant la voie à une amélioration du dépistage et des systèmes de triage en santé mentale.
2025-03-14A Framework for a Capability-driven Evaluation of Scenario Understanding for Multimodal Large Language Models in Autonomous DrivingLes chercheurs proposent un cadre systématique pour évaluer les modèles de langage multimodal (MLLM) dans la conduite autonome, en structurant la compréhension des scénarios selon les dimensions sémantiques, spatiales, temporelles et physiques, inspirées par les exigences des systèmes de conduite autonome et du raisonnement linguistique humain.
2025-03-14Integrating LLMs in Gamified SystemsCet article présente un cadre mathématique intégrant les grands modèles de langage dans des systèmes gamifiés pour améliorer l'engagement des utilisateurs et la dynamique des tâches, avec des applications potentielles dans divers secteurs tels que les affaires, la santé et l'éducation.
2025-03-14Potential of large language model-powered nudges for promoting daily water and energy conservationUne étude démontre que les modèles de langage étendu (LLMs) augmentent considérablement l'intention de conservation d'eau et d'énergie en fournissant des suggestions personnalisées, surpassant les méthodes traditionnelles de nudging et renforçant la motivation intrinsèque chez les participants.
2025-03-14Synthesizing Access Control Policies using Large Language ModelsCet article explore l'utilisation de modèles de langage (LLM) pour générer automatiquement des politiques de contrôle d'accès sur des systèmes cloud, soulignant l'efficacité de demandes plus structurées pour obtenir des résultats précis.
2025-03-13OR-LLM-Agent: Automating Modeling and Solving of Operations Research Optimization Problem with Reasoning Large Language ModelDes chercheurs introduisent OR-LLM-Agent, un agent intelligent basé sur des modèles de langage qui automatise entièrement la résolution de problèmes de recherche opérationnelle en traduisant des descriptions en langage naturel en modèles mathématiques et code solver, surpassant les méthodes existantes avec une précision de 85%.
2025-03-13NumScout: Unveiling Numerical Defects in Smart Contracts using LLM-Pruning Symbolic ExecutionLes chercheurs identifient cinq nouveaux types de défauts numériques dans les contrats intelligents Ethereum et proposent NumScout, un outil de détection qui améliore la précision de l'analyse des contrats de 89,7%.
2025-03-13AgentDAO: Synthesis of Proposal Transactions Via Abstract DAO SemanticsUn système multi-agents alimenté par des modèles de langage et un algorithme de récupération centré sur les labels automatise la conversion des propositions de gouvernance en DAOs, simplifiant ainsi leur création grâce au langage spécifique DAOLang.
2025-03-13Test Amplification for REST APIs Using "Out-of-the-box" Large Language ModelsLes chercheurs explorent l'utilisation de grands modèles de langage pour améliorer les suites de tests des APIs REST, en évaluant leur couverture et leur lisibilité, et partagent des directives et enseignements pour optimiser les prompts utilisés.
2025-03-13BeamLLM: Vision-Empowered mmWave Beam Prediction with Large Language ModelsL'article présente BeamLLM, un cadre de prédiction de faisceau mmWave utilisant des modèles de langage pour améliorer la communication V2I avec une précision élevée, surpassant les modèles traditionnels en réduisant la dégradation dans des scénarios de prédiction à nombre réduit d'exemples.
2025-03-13Source-primed Multi-turn Conversation Helps Large Language Models Translate DocumentsLes chercheurs ont développé une méthode simple pour la traduction de documents, en utilisant des LLM de manière itérative par segments tout en conservant le contexte, ce qui améliore la cohérence sans nécessiter d'entraînement supplémentaire, surpassant les traductions documentaires classiques selon plusieurs métriques.
2025-03-13HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action ModelL'article présente HybridVLA, un cadre unifié qui intègre les politiques autoregressives et de diffusion pour améliorer la manipulation des robots, surpassant les précédentes méthodes VLA dans des tâches simulées et réelles.
2025-03-13HALURust: Exploiting Hallucinations of Large Language Models to Detect Vulnerabilities in RustHALURust utilise des LLMs pour détecter les vulnérabilités dans le code Rust en générant des rapports de vulnérabilités obtenus par hallucinations, améliorant ainsi la précision de détection de plus de 10% et s'adaptant aux vulnérabilités inconnues et à d'autres langages de programmation.
2025-03-13Taxonomic Reasoning for Rare Arthropods: Combining Dense Image Captioning and RAG for Interpretable ClassificationCet article explore l'utilisation de modèles d'IA intégrant la génération augmentée par récupération et les grands modèles de langage pour améliorer la classification taxonomique des arthropodes, en soulignant leur potentiel pour identifier des espèces rares et inconnues et soutenir les initiatives de conservation de la biodiversité.
2025-03-13ChatGPT Encounters Morphing Attack Detection: Zero-Shot MAD with Multi-Modal Large Language Models and General Vision ModelsCet article explore l'utilisation de l'apprentissage zéro-shot pour la détection d'attaques de morphing via des modèles de langage large, montrant une détection précise et la capacité à fournir des explications pour des applications pratiques comme le contrôle aux frontières.
2025-03-12Large Language Models-Aided Program DebloatingLEADER est un cadre de débloatage logiciel utilisant des modèles de langue avancés pour préserver les fonctionnalités et améliorer la sécurité, surpassant les outils actuels grâce à sa compréhension sémantique et ses capacités génératives.
2025-03-12KNighter: Transforming Static Analysis with LLM-Synthesized CheckersKNighter propose une nouvelle approche pour l'analyse statique basée sur les grands modèles de langage, en synthétisant des analyseurs de bugs à partir de modèles historiques, ce qui permet de distinguer des failles dans le noyau Linux que les outils traditionnels ne détectent pas, avec déjà 70 vulnérabilités identifiées.
2025-03-12Leveraging Retrieval Augmented Generative LLMs For Automated Metadata Description Generation to Enhance Data CatalogsL'article examine les défis de la création et de l'enrichissement de métadonnées dans les catalogues de données des entreprises, en proposant l'utilisation de modèles de langage génératifs finement ajustés pour améliorer la recherche et l'accessibilité des données. Les résultats prometteurs montrent une acceptabilité élevée du contenu généré par les experts en gestion des données, ce qui pourrait transformer la manière dont les entreprises organisent et accèdent à leurs actifs de données.
2025-03-12ManeuverGPT Agentic Control for Safe Autonomous Stunt ManeuversL'équipe de recherche a développé une nouvelle structure, ManeuverGPT, qui utilise des agents basés sur un modèle de langage pour réaliser des manœuvres audacieuses dans les véhicules autonomes, notamment les J-turns, en équilibrant raisonnement linguistique et validation algorithmique sans nécessiter de réentraînement des modèles.
2025-03-12AdaptAI: A Personalized Solution to Sense Your Stress, Fix Your Mess, and Boost ProductivityL'article présente AdaptAI, une solution multimodale d'IA qui personnalise le soutien à la productivité et les interventions de bien-être en tenant compte des préférences individuelles et des indicateurs physiologiques, montrant des améliorations significatives dans la satisfaction des utilisateurs et l'efficacité des tâches.
2025-03-12Generative AI Adoption and Higher Order SkillsL'adoption de l'IA générative modifie la demande de compétences, en augmentant de 36,7 % les exigences en compétences cognitives et de 5,2 % en compétences sociales pour les postes intégrant des outils comme ChatGPT et Copilot.
2025-03-12LREF: A Novel LLM-based Relevance Framework for E-commerceDes chercheurs ont développé un nouveau cadre LLM-based RElevance Framework (LREF) pour améliorer la pertinence des recherches en e-commerce, démontrant des améliorations significatives dans les performances en tests en ligne et hors ligne, et générant des avantages commerciaux importants après son déploiement.
2025-03-12DeepInnovation AI: A Global Dataset Mapping the AI innovation and technology Transfer from Academic Research to Industrial PatentsL'article présente DeepInnovationAI, un ensemble de données mondial qui relie la recherche académique aux brevets industriels pour cartographier l'innovation en IA, en surmontant les limitations des infrastructures de données existantes grâce à des modèles de langage et des analyses de texte multilingues.
2025-03-12Fine-Tuning Large Language Models for Educational Support: Leveraging Gagne's Nine Events of Instruction for Lesson PlanningCette étude explore comment les modèles de langage AI peuvent améliorer la préparation des enseignants en mathématiques, via des incitations structurées et l'affinement de modèles, pour produire des contenus éducatifs pertinents et alignés avec les standards d'enseignement.
2025-03-12Adaptive political surveys and GPT-4: Tackling the cold start problem with simulated user interactionsDes chercheurs démontrent que les modèles de langage de grande taille, comme GPT-4, peuvent générer des données synthétiques précises pour pré-entraîner des questionnaires adaptatifs en sciences politiques, améliorant ainsi la précision des prédictions et des recommandations.
2025-03-12RetSTA: An LLM-Based Approach for Standardizing Clinical Fundus Image ReportsLes chercheurs ont développé deux modèles, RetSTA-7B-Zero et RetSTA-7B, pour standardiser les rapports cliniques bilingues en ophtalmologie, démontrant que RetSTA-7B surpasse les autres modèles grâce à une intégration de données standardisées plus diversifiées.
2025-03-12CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE DetectionL'article présente CASTLE, un cadre d'évaluation novateur qui compare les capacités de détection de vulnérabilités de divers outils, soulignant les performances impressionnantes des grands modèles de langage pour identifier les failles dans de petits extraits de code, malgré leurs limites pour les codes plus volumineux.
2025-03-12SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action AlignmentDes chercheurs ont développé SimLingo, un modèle combinant conduite autonome, compréhension vision-langage et alignement langage-action, qui atteint des performances inégalées dans le simulateur CARLA sans utiliser de capteurs coûteux comme le LiDAR.
2025-03-12Complementarity, Augmentation, or Substitutivity? The Impact of Generative Artificial Intelligence on the U.S. Federal WorkforceL'étude analyse l'impact imminent des technologies d'IA générative sur les compétences professionnelles du personnel fédéral américain, identifiant les professions vulnérables et recommandant des politiques pour la planification stratégique des ressources humaines face aux changements induits par l'IA.
2025-03-12Can A Society of Generative Agents Simulate Human Behavior and Inform Public Health Policy? A Case Study on Vaccine HesitancyCet article explore la possibilité d'utiliser des agents génératifs, via le cadre VacSim, pour simuler le comportement humain en matière de santé publique, en se concentrant sur l'hésitation vaccinale afin de réduire la dépendance aux essais humains réels pour les politiques publiques. Les résultats préliminaires montrent un potentiel pour simuler certains aspects du comportement humain, bien que des défis d'alignement avec le monde réel subsistent.
2025-03-12Global Position Aware Group Choreography using Large Language ModelLes chercheurs ont développé un cadre de chorégraphie de groupe en utilisant les avancées des grands modèles de langage pour générer des danses multi-personnes réalistes et variées, en traduisant les séquences audio en mouvements synchronisés.
2025-03-12Leveraging LLMS for Top-Down Sector Allocation In Automated TradingUne nouvelle méthodologie utilisant des modèles de langage de grande taille permet d'optimiser l'allocation de portefeuille sectorielle en analysant les conditions macroéconomiques et le sentiment du marché, démontrant des rendements ajustés au risque nettement supérieurs aux stratégies traditionnelles.
2025-03-12BYOS: Knowledge-driven Large Language Models Bring Your Own Operating System More ExcellentDes chercheurs présentent BYOS, un cadre novateur utilisant les modèles de langage pour personnaliser les configurations de noyau d'un système d'exploitation afin de répondre à des exigences spécifiques, surpassant les configurations par défaut avec une amélioration de 7.1% à 155.4%.
2025-03-12A Prototype VS Code Extension to Improve Web Accessible DevelopmentCet article présente un plugin pour Visual Studio Code qui utilise un modèle de langage avancé afin d'aider les développeurs à identifier et résoudre les problèmes d'accessibilité pendant le développement, bien que la détection précise des erreurs reste un défi.
2025-03-12Leveraging Social Media and Google Trends to Identify Waves of Avian Influenza Outbreaks in USA and CanadaL'étude explore l'utilisation des activités en ligne sur les réseaux sociaux et les recherches Google pour une détection précoce des foyers de grippe aviaire, montrant une efficacité supérieure aux systèmes de surveillance classiques.
2025-03-12Review GIDE -- Restaurant Review Gastrointestinal Illness Detection and Extraction with Large Language ModelsDes chercheurs au Royaume-Uni exploitent des modèles de langage avancés pour surveiller les maladies gastro-intestinales en analysant les avis en ligne de restaurants, démontrant ainsi le potentiel des LLMs pour améliorer la santé publique grâce à une extraction précise des symptômes et aliments.
2025-03-12Advancing Education through Tutoring Systems: A Systematic Literature ReviewCette étude examine le rôle des systèmes de tutorat intelligent et robotique dans l'éducation, révélant leur potentiel à personnaliser l'apprentissage et à pallier les lacunes grâce aux avancées technologiques en IA, tout en soulignant les défis éthiques et de mise à l'échelle.
2025-03-12Multi-Agent LLM Actor-Critic Framework for Social Robot NavigationLes chercheurs introduisent SAMALM, un cadre multi-agent LLM pour la navigation sociale de robots, qui utilise des acteurs LLM décentralisés et un processus de vérification à deux niveaux pour améliorer la robustesse et l'adaptabilité des interactions robot-robot dans divers environnements.
2025-03-12Learning to Contextualize Web Pages for Enhanced Decision Making by LLM AgentsLe cadre LCoW introduit une contextualisation avancée des pages web pour améliorer l'autonomie des agents LLM, augmentant les taux de réussite en automatisation web de 15.6% à 23.7% pour les modèles à code fermé et ouvert, surpassant même les experts humains dans certains benchmarks.
2025-03-12CALLM: Context-Aware Emotion Analysis in Cancer Survivors Using LLMs and Retrieval-Augmented Mobile DiariesDes chercheurs ont développé CALLM, un cadre d'analyse émotionnelle contextuel utilisant des modèles linguistiques avancés pour améliorer la prédiction des états émotionnels des survivants du cancer via leurs journaux mobiles, ouvrant ainsi la voie à des interventions personnalisées plus efficaces.
2025-03-11Code Digital Twin: Empowering LLMs with Tacit Knowledge for Complex Software MaintenanceLes modèles linguistiques risquent de ne pas comprendre la connaissance implicite des systèmes logiciels complexes. Notre « Code Digital Twin » capture cette connaissance pour améliorer la maintenance via une combinaison d'extraction de sources structurées et non structurées.
2025-03-11LLM-Powered Knowledge Graphs for Enterprise Intelligence and AnalyticsL'article présente un cadre utilisant des grands modèles de langage pour unifier diverses sources de données en un graphe de connaissances centré sur l'activité, afin d'automatiser des tâches et améliorer les décisions basées sur l'analyse de données.
2025-03-11A Neural Symbolic Model for Space PhysicsDes chercheurs ont développé PhyE2E, un modèle d'IA capable de découvrir des formules physiques à travers la régression symbolique, améliorant la précision et la précision des ajustements de données dans des applications spatiales comme la prédiction des taches solaires, et fournissant des explications inédites pour l'activité solaire.
2025-03-11Instruction-Augmented Long-Horizon Planning: Embedding Grounding Mechanisms in Embodied Mobile ManipulationLes chercheurs ont développé le système IALP, un cadre novateur utilisant des modèles de langage large pour permettre aux robots humanoïdes une planification de manipulation mobile à long terme, basée sur des retours sensoriels en temps réel, atteignant ainsi un taux de réussite de plus de 80% dans des environnements non structurés.
2025-03-11Towards Large-scale Chemical Reaction Image Parsing via a Multimodal Large Language ModelDes chercheurs ont développé RxnIM, un modèle de langage multimodal capable de convertir des images de réactions chimiques en données lisibles par machine, améliorant ainsi l'accessibilité des données cruciales pour la recherche en chimie organique par IA.
2025-03-11FASIONAD++ : Integrating High-Level Instruction and Information Bottleneck in FAt-Slow fusION Systems for Enhanced Safety in Autonomous Driving with Adaptive FeedbackFASIONAD est une nouvelle architecture à double système pour les véhicules autonomes, combinant un planificateur rapide end-to-end et un module de raisonnement VLM, permettant d'améliorer l'efficacité en réduisant les erreurs de trajectoire et les collisions dans des scénarios complexes.
2025-03-11Mutation Testing via Iterative Large Language Model-Driven Scientific DebuggingDes chercheurs ont montré que les grands modèles de langage (LLMs) peuvent surpasser les méthodes traditionnelles de génération de tests, notamment Pynguin, en utilisant un processus de débogage scientifique pour créer et affiner des tests détectant efficacement les défauts artificiels dans le code.
2025-03-11Automating Violence Detection and Categorization from Ancient TextsCette étude explore l'efficacité des modèles de langage à grande échelle pour détecter et catégoriser la violence dans les textes anciens, démontrant leur utilité pour faciliter l'analyse précise des dynamiques sociétales historiques avec une performance notable.
2025-03-11Will LLMs Scaling Hit the Wall? Breaking Barriers via Distributed Resources on Massive Edge DevicesUn article de recherche propose de surmonter les limites actuelles de l'IA, comme le manque de données de qualité et la puissance de calcul, en exploitant les appareils de périphérie distribués pour rendre le développement de l'IA plus collaboratif et accessible à tous.
2025-03-11PromptLNet: Region-Adaptive Aesthetic Enhancement via Prompt Guidance in Low-Light Enhancement NetUne nouvelle approche innovante pour l'amélioration des images en faible luminosité, intégrant l'évaluation esthétique par feedback humain et un ajustement précis de la luminosité, surpasse les méthodes existantes en offrant une qualité visuelle supérieure et une meilleure flexibilité.
2025-03-11Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and ChallengesLes chercheurs explorent l'application des grands modèles de langage dans les systèmes de référence ambulatoire, proposant un cadre d'évaluation pour mesurer leur efficacité, soulignant que malgré des avantages limités sur les modèles BERT, ils excellent dans la gestion de dialogues interactifs.
2025-03-11General-Purpose Aerial Intelligent Agents Empowered by Large Language ModelsL'émergence des modèles de langage étendus permet aux drones d'aborder des tâches ouvertes, grâce à l'intégration étroite du raisonnement basé sur l'IA et de l'autonomie robotique, offrant une planification intelligente dans des environnements de communication limitée.
2025-03-11Towards Scalable and Cross-Lingual Specialist Language Models for OncologyCette recherche propose un cadre NLP spécialisé en oncologie, combinant tuning d'instruction, génération augmentée par récupération et intégration de connaissances basées sur des graphes, pour surmonter les défis des LLMs généralistes en traitant des tâches spécifiques comme la reconnaissance d'entités nommées et la classification de documents.
2025-03-11KiteRunner: Language-Driven Cooperative Local-Global Navigation Policy with UAV Mapping in Outdoor EnvironmentsKiteRunner, une nouvelle approche de navigation extérieure autonome, optimise la planification spatiale grâce à une stratégie de coopération locale-globale, intégrant orthophotographies UAV et modèles de diffusion, tout en utilisant CLIP et GPT pour interpréter les instructions, améliorant ainsi efficacité et réduisant les interventions humaines.
2025-03-11Prompt2LVideos: Exploring Prompts for Understanding Long-Form Multimodal VideosCet article explore l'utilisation des modèles de langage avancés, combinant les technologies de reconnaissance vocale et de reconnaissance de caractères, pour automatiser la compréhension des vidéos longues dans les contextes éducatif et médiatique, et propose des techniques pour améliorer l'interprétation de ce type de contenu.
2025-03-11DISTINGUISH Workflow: A New Paradigm of Dynamic Well Placement Using Generative Machine LearningL'article présente "DISTINGUISH", un flux de travail automatisé et révolutionnaire, basé sur l'IA, qui optimise la géosteerage en intégrant des GANs et une programmation dynamique discrète pour améliorer les décisions de forage directionnel en temps réel.
2025-03-11Chemical reasoning in LLMs unlocks steerable synthesis planning and reaction mechanism elucidationLes chercheurs montrent que les grands modèles de langage (LLM) peuvent améliorer la planification rétrosynthétique et l'élucidation de mécanismes chimiques, en mêlant leur raisonnement stratégique à des algorithmes de recherche traditionnels pour des solutions plus intuitives et précises en chimie assistée par ordinateur.
2025-03-11DeepReview: Improving LLM-based Paper Review with Human-like Deep Thinking ProcessUn nouvel outil, DeepReview, vise à améliorer les évaluations automatiques de recherche scientifique en utilisant l'IA, surpassant les modèles existants avec moins de ressources grâce à une méthode d'annotation structurée et une argumentation basée sur des preuves.
2025-03-11EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open EnvironmentsLes chercheurs ont développé EMMOE, un cadre intégrant tâches robotiques complexes, et HomieBot, un système agent sophistiqué, pour améliorer l'exécution autonome des robots domestiques grâce à l'intelligence incarnée et l'optimisation des préférences directes.
2025-03-11Oasis: One Image is All You Need for Multimodal Instruction Data SynthesisLes chercheurs présentent Oasis, une méthode innovante de synthèse de données multi-modales basée uniquement sur des images, qui améliore la performance et la diversité des modèles de langage et offre une solution à la collecte laborieuse de données.
2025-03-11ResBench: Benchmarking LLM-Generated FPGA Designs with Resource AwarenessLes chercheurs ont développé ResBench, un banc d'essai évaluant l'efficience en ressources des codes HDL générés par des modèles de langage, ciblant l'optimisation des ressources FPGA dans divers domaines d'application.
2025-03-11Enhancing Large Language Models for Hardware Verification: A Novel SystemVerilog Assertion DatasetLe projet VERT propose un jeu de données open-source pour améliorer la génération d'assertions SystemVerilog via des modèles de langage, offrant une précision supérieure et des économies de coûts par rapport aux modèles propriétaires comme GPT-4o, tout en garantissant la confidentialité des données.
2025-03-11ARCHED: A Human-Centered Framework for Transparent, Responsible, and Collaborative AI-Assisted Instructional DesignL'article présente ARCHED, un cadre structuré utilisant des modèles de langage avancés pour améliorer la conception pédagogique, en centrant l'engagement humain et la transparence, et en démontrant que cette approche améliore la qualité tout en maintenant la supervision des éducateurs.
Interaction
DateTitreRésumé
2025-03-14An LLM's Attempts to Adapt to Diverse Software Engineers' Problem-Solving Styles: More Inclusive & Equitable?Des chercheurs ont exploré l'adaptation des modèles de langage pour expliquer le code aux ingénieurs en fonction de leur style de résolution de problèmes, révélant que ces adaptations sont généralement bénéfiques, bien que parfois les solutions non adaptées soient tout aussi avantageuses.
2025-03-14API Agents vs. GUI Agents: Divergence and ConvergenceL'article propose une étude comparative des agents LLM basés sur API et sur GUI, soulignant leurs divergences, leurs potentiels de convergence, et les scénarios hybrides pouvant tirer parti de leurs forces complémentaires pour améliorer l'automatisation des tâches.
2025-03-14Reasoning-Grounded Natural Language Explanations for Language ModelsLes chercheurs proposent une technique pour obtenir des explications fidèles en langage naturel à partir de modèles de langage en ancrant ces explications dans un processus de raisonnement, augmentant ainsi la qualité des réponses et explications simultanément.
2025-03-13Hybrid Agents for Image RestorationLes chercheurs présentent HybridAgent, un modèle de restauration d'images intégrant plusieurs modes de restauration pour optimiser l'interaction utilisateur, utilisant des agents hybrides rapides et lents, avec un système avancé de suppression des distorsions pour améliorer l'efficacité.
2025-03-13Unveiling the Invisible: Reasoning Complex Occlusions Amodally with AURALes chercheurs introduisent AURA, un modèle innovant capable de prédire la forme complète d'objets occlus avec interaction textuelle, répondant ainsi aux défis des scénarios complexes d'occlusion.
2025-03-13SCOOP: A Framework for Proactive Collaboration and Social Continual Learning through Natural Language Interaction andCausal ReasoningDes chercheurs proposent un cadre d'apprentissage continu social pour l'acquisition de connaissances causales, permettant aux agents autonomes de collaborer efficacement via des dialogues et des interactions multimodales, en s'appuyant sur des modèles de langage avancés et des graphes de connaissances pour optimiser la prise de décision.
2025-03-13KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic ManipulationKUDA est un système innovant de manipulation robotique à vocabulaire ouvert intégrant l'apprentissage des dynamiques et le ciblage visuel par points clés, capable d'interpréter des instructions linguistiques et de traduire ces données pour planifier des trajectoires robotiques efficaces dans des tâches complexes et dynamiques.
2025-03-12NVP-HRI: Zero Shot Natural Voice and Posture-based Human-Robot Interaction via Large Language ModelL'article présente NVP-HRI, un nouveau paradigme de commande des interactions humain-robot qui améliore l'efficacité de 59,2 % en intégrant commandes vocales et gestes pour contrôler des objets non-préenregistrés, visant à simplifier l'utilisation chez les personnes âgées.
2025-03-12Harmonizing Large Language Models with Collaborative Behavioral Signals for Conversational RecommendationLes chercheurs ont développé un nouveau cadre probabiliste qui combine modèles de préférences latentes et interactions conversationnelles, permettant une meilleure utilisation des comportements collectifs pour améliorer les recommandations personnalisées. Ce cadre surpasse les méthodes existantes en alignant les interactions linguistiques avec les signaux comportementaux collaboratifs.
2025-03-11The StudyChat Dataset: Student Dialogues With ChatGPT in an Artificial Intelligence CourseL'article présente "StudyChat", un ensemble de données capturant les interactions réelles des étudiants avec un chatbot de tutorat alimenté par un modèle de langage large, visant à analyser et comprendre l'usage de ces outils dans un cours universitaire d'intelligence artificielle.
2025-03-11TSCnet: A Text-driven Semantic-level Controllable Framework for Customized Low-Light Image EnhancementLes chercheurs présentent un nouveau cadre basé sur le deep learning pour l'amélioration personnalisée de l'éclairage des images, en utilisant une approche adaptative et interactive qui comprend des ajustements sémantiques à partir de prompts en langage naturel, démontrant des résultats supérieurs en visibilité et en équilibre des couleurs.
2025-03-11Investigating the Effectiveness of a Socratic Chain-of-Thoughts Reasoning Method for Task Planning in Robotics, A Case StudyLes chercheurs explorent l'application de GPT-4 à la robotique pour les tâches de navigation spatiale sans ajustement préalable, en utilisant la méthode socratique et le raisonnement en chaîne de pensée pour améliorer l'interaction humain-robot et réduire les besoins en programmation.
2025-03-11Trinity: A Modular Humanoid Robot AI SystemLes chercheurs présentent "Trinity", un système d'IA novateur pour robots humanoïdes, intégrant le renforcement de l'apprentissage, les modèles de langage et les modèles visuels pour optimiser le contrôle et les interactions dans des environnements complexes, ouvrant ainsi la voie à de nouvelles applications en robotique humanoïde.
2025-03-11DAFE: LLM-Based Evaluation Through Dynamic Arbitration for Free-Form Question-AnsweringLes chercheurs proposent le Dynamic Arbitration Framework for Evaluation (DAFE), un système innovant utilisant les grands modèles de langage (LLM) comme juges, avec un arbitrage dynamique pour évaluer les réponses générées de manière fiable et efficace, améliorant ainsi la précision des mesures d'évaluation par rapport aux méthodes traditionnelles.
2025-03-11Graph of AI Ideas: Leveraging Knowledge Graphs and LLMs for AI Research Idea GenerationLes chercheurs proposent le framework GoAI, inspiré des graphes de connaissances, pour structurer les articles en entités et relations dans un graphe, améliorant ainsi la capacité des modèles de langage à générer des idées créatives à partir de la littérature scientifique.
Confiance
DateTitreRésumé
2025-03-14LLMs are Bug Replicators: An Empirical Study on LLMs' Capability in Completing Bug-prone CodeUne étude empirique révèle que les grands modèles de langage sont moins efficaces pour compléter du code sujet aux bugs que du code normal, avec une forte probabilité de reproduire des bugs historiques, soulignant la nécessité d'améliorer les modèles et les techniques post-traitement pour pallier ces limitations.
2025-03-14Trust in Disinformation Narratives: a Trust in the News ExperimentDans une expérimentation collaborative menée avec des journalistes et chercheurs NLP, des participants en Espagne et au Royaume-Uni ont évalué leur confiance envers des articles de fausses informations, révélant que le sujet, la position narrative, et les facteurs démographiques influencent significativement cette confiance, contrairement à l'origine humaine ou ChatGPT des contenus.
2025-03-14Don't Forget It! Conditional Sparse Autoencoder Clamping Works for UnlearningLe recours aux autoencodeurs clairsemés (SAEs) pour moduler les activations internes des modèles de langage permet de réduire la capacité du modèle à répondre à des questions nuisibles sans compromission des performances sur des requêtes innocentes, ouvrant ainsi la voie à des techniques de désapprentissage explicite des connaissances potentiellement dangereuses.
2025-03-14Align in Depth: Defending Jailbreak Attacks via Progressive Answer DetoxificationDes chercheurs proposent le cadre DEEPALIGN pour améliorer la défense des modèles de langage face aux attaques, en affinant leur capacité à identifier et à éviter les réponses toxiques grâce à une fonction de perte hybride et des réponses sémantiquement sûres, surpassant ainsi les méthodes actuelles en réduisant drastiquement les taux de succès des attaques.
2025-03-14PrivacyScalpel: Enhancing LLM Privacy via Interpretable Feature Intervention with Sparse AutoencodersUn nouvel outil, PrivacyScalpel, améliore la confidentialité des grands modèles de langage en réduisant considérablement les fuites d'informations personnelles identifiables tout en conservant une performance optimale, marquant une avancée notable par rapport aux techniques existantes.
2025-03-14Implicit Bias-Like Patterns in Reasoning ModelsLes chercheurs ont développé un test appelé RM-IAT pour étudier les biais implicites dans les modèles de raisonnement, révélant que ces systèmes exigent plus de ressources pour traiter des informations incompatibles par association, suggérant des parallèles avec les biais implicites humains. Les implications de ces résultats pour l'utilisation des systèmes d'IA dans la pratique sont explorées.
2025-03-13PluralLLM: Pluralistic Alignment in LLMs via Federated LearningLes chercheurs présentent PluralLLM, une approche de formation fédérée permettant d'aligner les modèles de langage sur les préférences humaines tout en préservant la vie privée et en améliorant l'efficacité de la convergence et des scores d'alignement.
2025-03-13Representation-based Reward Modeling for Efficient Safety Alignment of Large Language ModelLes chercheurs proposent un nouveau cadre pour l'alignement de sécurité des grands modèles de langage par le re-réordonnement des préférences, réduisant le coût de calcul par rapport aux méthodes actuelles tout en améliorant la performance sécuritaire.
2025-03-13MinorBench: A hand-built benchmark for content-based risks for childrenDes chercheurs examinent comment les Grandes Modèles de Langue (LLMs) pénétrent la vie des enfants et révèlent, via une étude de cas, les risques de contenus spécifiques aux mineurs, proposant ainsi une nouvelle taxonomie de ces risques et un benchmark pour évaluer les refus de requêtes inappropriées par les LLMs.
2025-03-13LLM Agents Display Human Biases but Exhibit Distinct Learning PatternsLes modèles de langage à grande échelle manifestent des biais comportementaux similaires à ceux des humains dans les tâches décisionnelles basées sur l'expérience, mais présentent des différences fondamentales, notamment un biais de récence prononcé, qui questionne leur capacité à simuler fidèlement les processus décisionnels humains.
2025-03-13LLMs in Disease Diagnosis: A Comparative Study of DeepSeek-R1 and O3 Mini Across Chronic Health ConditionsLes modèles de langage avancés transformant le diagnostic médical montrent des performances prometteuses en neurosciences et oncologie, mais des lacunes en maladies respiratoires, soulignant la nécessité de leur amélioration pour une utilisation clinique responsable.
2025-03-13Short-term AI literacy intervention does not reduce over-reliance on incorrect ChatGPT recommendationsUne étude sur des lycéens montre que l'intervention éducative visant à améliorer la littératie en IA n'a pas diminué la surreliance sur les recommandations incorrectes de ChatGPT, et a même augmenté le rejet de conseils corrects, soulignant la complexité d'améliorer la littératie en IA.
2025-03-13ASIDE: Architectural Separation of Instructions and Data in Language ModelsLes chercheurs introduisent ASIDE, une modification architecturale qui sépare instructions et données dans les grands modèles de langage, augmentant ainsi la résistance aux attaques de type "prompt injection" sans altérer les performances.
2025-03-13Siege: Autonomous Multi-Turn Jailbreaking of Large Language Models with Tree SearchLes chercheurs présentent Siege, un cadre multi-tour qui expose l'érosion progressive de la sécurité des grands modèles de langage via une approche de recherche arborescente, atteignant un taux de succès élevé avec moins de requêtes que les méthodes existantes, soulignant le besoin de tests robustes pour les dialogues multi-tours.
2025-03-13Word-level Annotation of GDPR Transparency Compliance in Privacy Policies using Large Language ModelsLes chercheurs présentent un cadre basé sur un modèle de langage pour annoter la transparence de la conformité au GDPR dans les politiques de confidentialité, permettant une analyse et un raffinement systématiques à grande échelle.
2025-03-13DarkBench: Benchmarking Dark Patterns in Large Language ModelsDarkBench est un nouvel outil d'évaluation qui expose les techniques manipulatrices des modèles de langage, révélant des biais de marque et des comportements fallacieux, incitant les développeurs à améliorer l'éthique des IA.
2025-03-12JBFuzz: Jailbreaking LLMs Efficiently and Effectively Using FuzzingDes chercheurs ont développé JBFuzz, une méthode automatisée et scalable permettant de tester la vulnérabilité des modèles de langage à des attaques de type "jailbreaking", montrant une efficacité de 99% pour contourner les protections existantes.
2025-03-12Prompt Inversion Attack against Collaborative Inference of Large Language ModelsUne nouvelle recherche révèle les menaces importantes pour la vie privée dans l'inférence collaborative des modèles de langage, en introduisant les attaques d'inversion de prompt (PIA), capables de retrouver les données d'entrée avec une précision remarquable.
2025-03-12Aligning to What? Limits to RLHF Based AlignmentUne étude explore l'efficacité de l'apprentissage par renforcement avec feedback humain pour réduire les biais dans les grands modèles de langage, révélant que ces techniques ne suffisent pas à atténuer les biais subtils, surtout ceux contre les Afro-Américains, et soulignant l'importance de bases de données et d'outils plus robustes pour l'alignement des modèles.
2025-03-12Probing Latent Subspaces in LLM for AI Security: Identifying and Manipulating Adversarial StatesUne étude récente explore comment les manipulations adverses, telles que les attaques par injection de prompts, perturbent les activations des grands modèles de langage (LLMs) pour induire des transitions vers des états de jailbreak, ouvrant la voie à des défenses proactives pour neutraliser ces états à un niveau de représentation.
2025-03-12VaxGuard: A Multi-Generator, Multi-Type, and Multi-Role Dataset for Detecting LLM-Generated Vaccine MisinformationCet article présente VaxGuard, un nouveau jeu de données pour la détection des désinformations vaccinales générées par les modèles de langage. Les résultats indiquent que GPT-3.5 et GPT-4o surclassent d'autres modèles, soulignant l'importance de stratégies de détection spécifiques aux rôles.
2025-03-12Rethinking Prompt-based Debiasing in Large Language ModelsL'étude révèle que les approches basées sur les incitations pour détecter les biais dans les modèles de langage, comme le modèle Llama2-7B-Chat, sont souvent superficielles et mettent en lumière la nécessité de revoir les métriques de biais pour garantir une IA réellement fiable.
2025-03-12Prompt Inference Attack on Distributed Large Language Model Inference FrameworksCet article analyse les vulnérabilités de la confidentialité des frameworks d'inférence de modèles de langage large (LLM) distribués en concevant trois attaques visant à reconstruire les invites d'origine, révélant des risques significatifs pour les applications concrètes.
2025-03-12CyberLLMInstruct: A New Dataset for Analysing Safety of Fine-Tuned LLMs Using Cyber Security DataLes chercheurs ont développé CyberLLMInstruct, un ensemble de données pour améliorer l'analyse de menaces et la détection de malware via des modèles de langage, mais ont découvert que le réglage fin de ces modèles peut améliorer la précision tout en diminuant leur résilience en matière de sécurité, soulevant ainsi des préoccupations de sécurité cruciales.
2025-03-12Safer or Luckier? LLMs as Safety Evaluators Are Not Robust to ArtifactsLes modèles de langage étendu (LLMs) sont utilisés comme évaluateurs automatiques pour juger la sécurité du contenu généré, mais leur fiabilité est remise en question. Cette étude analyse les biais des LLMs, montrant que des artefacts peuvent fausser les évaluations comparatives, et propose une méthode basée sur des jurys pour renforcer leur robustesse.
2025-03-12How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit MisinformationL'article met en lumière le développement d'ECHOMIST, un benchmark qui évalue la capacité des grands modèles de langage à détecter et contrer les prémisses implicites de désinformation, révélant qu'actuellement, ces modèles échouent souvent à identifier et corriger de telles erreurs.
2025-03-12A Survey on Trustworthy LLM Agents: Threats and CountermeasuresCet article présente le cadre TrustAgent, une étude approfondie sur la fiabilité des systèmes multi-agents basés sur les modèles de langage, en proposant une taxonomie modulaire et des méthodes d'évaluation pour aborder leur complexité et potentialités.
2025-03-12Media and responsible AI governance: a game-theoretic and LLM analysisCet article examine l'interaction stratégique entre développeurs d'IA, régulateurs, utilisateurs et médias pour promouvoir des systèmes d'IA fiables, en soulignant l'importance des médias comme forme de régulation "douce" et les influences des différents régimes de réglementation.
2025-03-12Proceedings of the ISCA/ITG Workshop on Diversity in Large Speech and Language ModelsL'article explore les impacts des grands modèles de langage sur la diversité linguistique, en soulignant le risque d'une adaptation forcée des utilisateurs pour une interaction efficace, et la marginalisation potentielle des langues moins représentées.
2025-03-12Battling Misinformation: An Empirical Study on Adversarial Factuality in Open-Source Large Language ModelsL'article explore comment différents modèles de langage détectent la désinformation intentionnelle, révélant que LLaMA 3.1 est très efficace, tandis que les performances varient avec le niveau de confiance exprimé par l'adversaire, et que les informations peu référencées sont plus vulnérables aux attaques.
2025-03-12Medical Large Language Model Benchmarks Should Prioritize Construct ValidityCet article de recherche souligne la nécessité d'évaluer empiriquement la validité des tests de référence pour les modèles de langage dans le domaine médical, en s'inspirant des cadres existants en psychologie, pour garantir qu'ils reflètent fidèlement les tâches cliniques réelles qu'ils prétendent mesurer.
2025-03-11Counterfactual Language Reasoning for Explainable Recommendation SystemsCet article présente CausalX, un cadre innovant combinant modèles causaux structurels et modèles de langage pour améliorer la cohérence causale des systèmes de recommandation, offrant des explications plausibles et réduisant les biais de popularité des items.
2025-03-11Dialogue Injection Attack: Jailbreaking LLMs through Context ManipulationCet article introduit le Dialogue Injection Attack (DIA), un nouveau paradigme de jailbreak qui utilise l'historique des dialogues pour améliorer le taux de réussite des attaques sur les modèles de langage, contournant plusieurs mécanismes de défense tout en opérant en environnement black-box.
2025-03-11EgoBlind: Towards Egocentric Visual Assistance for the Blind PeopleLes chercheurs introduisent EgoBlind, un ensemble de données unique en son genre pour évaluer les modèles d'IA multimodaux dans le contexte de vidéos prises par des personnes aveugles, révélant ainsi les insuffisances actuelles des modèles performants dont l'exactitude n'atteint que 56% par rapport aux 87.4% des humains.
2025-03-11Fact-checking with Generative AI: A Systematic Cross-Topic Examination of LLMs Capacity to Detect Veracity of Political InformationCette étude évalue l'utilisation des grands modèles de langage pour la vérification des faits et révèle que, bien que certains modèles présentent une meilleure précision, la performance globale reste modeste, avec notamment des défis liés à la qualité des sorties et la variabilité des résultats selon les modèles et les sujets.
2025-03-11Chain-of-Thought Reasoning In The Wild Is Not Always FaithfulLes chercheurs ont découvert que le raisonnement Chain-of-Thought (CoT) génère des conclusions non fidèles même sans biais artificiel, mettant en lumière des taux élevés d'erreurs raisonnant dans des modèles d'IA avancés, et posant des défis pour la sécurité de l'IA basée sur CoT.
2025-03-11Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMsDes chercheurs montrent que les méthodes actuelles pour évaluer l'alignement culturel des modèles de langage sont limitées, révélant une instabilité et un comportement imprévisible face à de légers changements méthodologiques. Cela remet en question la fiabilité des conclusions sur l'adaptation culturelle de ces modèles.
2025-03-11Exposing Product Bias in LLM Investment RecommendationUne étude révèle un biais de produit dans les recommandations d'investissement générées par les modèles de langage à grande échelle (LLMs), montrant des préférences systématiques pour certains actifs, même après application de techniques de réduction des biais, ce qui pourrait affecter la stabilité du marché.
2025-03-11Cross-Examiner: Evaluating Consistency of Large Language Model-Generated ExplanationsL'article présente Cross-Examiner, une méthode innovante combinant extraction d'informations symboliques et génération de questions par modèles linguistiques, améliorant ainsi la précision des questions de suivi pour vérifier la cohérence des explications fournies par les grands modèles linguistiques.
2025-03-11Seeing What's Not There: Spurious Correlation in Multimodal LLMsCet article examine les biais de corrélation fallacieux dans les modèles langagiers multimodaux (MLLMs) et propose SpurLens, une méthode pour détecter ces biais, révélant des défaillances majeures telles que la reconnaissance erronée d'objets et la génération d'hallucinations, tout en explorant des stratégies d'atténuation possibles.
2025-03-11Interpreting the Repeated Token Phenomenon in Large Language ModelsUn article de recherche dévoile une vulnérabilité des modèles de langage larges (LLMs) dans la répétition des mots, causée par des "attention sinks", et propose une solution ciblée pour corriger ce défaut tout en améliorant la sécurité et la fiabilité des modèles.
2025-03-11Backtracking for SafetyLes chercheurs proposent une méthode de rétrotracking pour corriger efficacement les violations de sécurité dans les modèles de langage, réduisant la toxicité tout en préservant l'efficacité de la génération des textes.
Recherche
DateTitreRésumé
2025-03-14Combinatorial Optimization for All: Using LLMs to Aid Non-Experts in Improving Optimization AlgorithmsDes chercheurs montrent que les modèles de langage étendu (LLMs) peuvent améliorer des algorithmes d'optimisation existants pour le problème du voyageur de commerce, en améliorant la qualité des solutions, réduisant le temps de calcul et simplifiant la complexité du code, sans exiger d'expertise spécialisée.
2025-03-14From Dionysius Emerges Apollo -- Learning Patterns and Abstractions from Perceptual SequencesCet article de recherche explore le processus de segmentation de flux sensoriels en séquences, connu sous le nom de "chunking", et propose des modèles de chunking et d'abstraction qui miment l'apprentissage humain pour découvrir des motifs symboliques invariants et acquérir des connaissances structurées, comparés aux modèles de langage.
2025-03-14Statistical Impossibility and Possibility of Aligning LLMs with Human Preferences: From Condorcet Paradox to Nash EquilibriumCet article explore les limites statistiques pour aligner les modèles de langage avec les préférences humaines, démontrant l'impossibilité d'un alignement complet via des approches basées sur la récompense, et propose un algorithme efficace pour identifier des équilibres de Nash, préservant la diversité des préférences.
2025-03-14TigerLLM -- A Family of Bangla Large Language ModelsDes chercheurs ont élaboré TigerLLM, une nouvelle génération de modèles de langage en Bangla surpassant les alternatives open-source et même les modèles propriétaires, établissant ainsi un nouveau standard pour la modélisation linguistique en Bangla.
2025-03-14RONA: Pragmatically Diverse Image Captioning with Coherence RelationsLes chercheurs ont développé RONA, une nouvelle stratégie de guidage pour les modèles de langage multi-modal, améliorant la diversité et l'alignement des légendes d'images, en utilisant les relations de cohérence comme axe de variation.
2025-03-14Beyond A Single AI Cluster: A Survey of Decentralized LLM TrainingCet article explore la formation décentralisée des grands modèles linguistiques (LLMs) comme une solution prometteuse pour démocratiser leur développement, par l'utilisation des ressources dispersées mondialement, en présentant une analyse approfondie et des études de cas actuelles.
2025-03-14Generative Modelling for Mathematical DiscoveryLes chercheurs ont développé "funsearch", un algorithme génétique guidé par des modèles de langage, destiné à générer des exemples pertinents pour les mathématiciens, efficace dans différents problèmes combinatoires et théoriques sans nécessiter de compétences spécifiques en apprentissage machine ou ressources informatiques avancées.
2025-03-14Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning CapabilitiesL'article explore les modèles de raisonnement avancés (LRMs) et leur impact sur les cadres traditionnels, révélant leur supériorité dans les tâches nécessitant un raisonnement intensif mais à un coût computationnel plus élevé, comparativement aux modèles de langage traditionnels (LLMs) axés sur l'exécution.
2025-03-14Prompt Alchemy: Automatic Prompt Refinement for Enhancing Code GenerationL'article présente Prochemy, une méthode novatrice qui automatise l'optimisation des invites pour améliorer la génération et traduction de code par les grands modèles de langage, augmentant ainsi la performance et la cohérence sans intervention humaine directe.
2025-03-14EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial TasksDes chercheurs proposent EmbodiedVSR, un cadre novateur intégrant un raisonnement en chaîne basé sur des graphes de scènes dynamiques, qui améliore la compréhension spatiale des agents incarnés sans ajustement spécifique aux tâches, se révélant plus performant que les méthodes basées sur les MLLM actuels pour des tâches complexes à long terme.
2025-03-14OmniDiff: A Comprehensive Benchmark for Fine-grained Image Difference CaptioningL'article présente OmniDiff, un nouveau jeu de données diversifié pour la génération de descriptions de différences entre images, et M$^3$Diff, un modèle multi-modal amélioré, qui ensemble surpassent les performances des précédents benchmarks en reconnaissance de différences inter-images.
2025-03-14Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open SpaceLes chercheurs ont développé Open3DVQA, un benchmark évaluant la capacité de raisonnement spatial des modèles de langage multimodal en espace 3D, révélant l'efficacité variable des modèles selon le type de relations spatiales et suggérant que l'affinement des modèles améliore leurs performances.
2025-03-14Quantifying Interpretability in CLIP Models with Concept ConsistencyL'article explore les mécanismes internes des modèles CLIP en introduisant le Concept Consistency Score (CCS), une métrique d'interprétabilité qui évalue la cohérence conceptuelle des têtes d'attention, révélant leur rôle crucial dans la performance et la compréhension des concepts, notamment en détection hors domaine et raisonnement vidéo-langue.
2025-03-14Limits of KV Cache Compression for Tensor Attention based Autoregressive TransformersLes chercheurs explorent les limites de la complexité spatiale des mécanismes d'attention tensorielle dans les transformers, proposant une approche théorique qui pourrait influencer le développement d'architectures plus efficaces en mémoire.
2025-03-14Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language ModelsLes chercheurs ont identifié comment certains tokens perturbent le raisonnement des modèles de langage en concentrant leur attention de manière erronée, et proposent une méthode d'intervention sur l'attention (FAI) pour corriger cet effet, avec une amélioration notable des performances.
2025-03-14Towards Extreme Pruning of LLMs with Plug-and-Play Mixed SparsityCet article propose une nouvelle méthode de pruning, appelée Mixed Sparsity Pruning, qui optimise les niveaux de sparsité des couches des modèles de langage avec efficience et performance, surpassant les méthodes existantes même à des ratios de pruning élevés.
2025-03-14Palette of Language Models: A Solver for Controlled Text GenerationLes chercheurs proposent une nouvelle stratégie de combinaison pour le contrôle multi-attribut d'un modèle de langage, inspirée par la Loi de la probabilité totale et la minimisation de l'information mutuelle conditionnelle, qui améliore la cohérence des résultats générés.
2025-03-14FastVID: Dynamic Density Pruning for Fast Video Large Language ModelsLes chercheurs ont proposé FastVID, une méthode innovante de "pruning" dynamique des tokens vidéo pour optimiser l'IA générative en vidéo tout en réduisant considérablement les coûts d'inférence, atteignant une performance de pointe en préservant la structure temporelle et visuelle.
2025-03-14Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question AnsweringCet article explore l'application de l'apprentissage par renforcement aux tâches de réponse audio, avec la méthode GRPO atteignant une précision de 64.5% sur le benchmark MMAU Test-mini, bien que les modèles audio-linguistiques ne parviennent pas encore à égaler les capacités humaines de raisonnement.
2025-03-14LLaVA-MLB: Mitigating and Leveraging Attention Bias for Training-Free Video LLMsLa recherche propose une méthode en deux étapes pour optimiser l'utilisation de modèles de langage d'images préentraînés pour l'analyse vidéo, en atténuant les biais d'attention grâce à une nouvelle technique de poolage et une utilisation efficace de la structure spatiotemporelle, augmentant la compréhension vidéo sans nécessiter un nouvel entraînement.
2025-03-14Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?Les modèles de raisonnement large, tels qu'OpenAI's o3-mini et DeepSeek R1, montrent une baisse significative de performance sur les tests analogiques non verbaux complexes, alors que le modèle neuro-symbolique ARLC maintient une robustesse notable, illustrant les défis des incertitudes perceptuelles dans le raisonnement analogique.
2025-03-14GKG-LLM: A Unified Framework for Generalized Knowledge Graph ConstructionLes chercheurs proposent un cadre unifié pour la construction de graphes de connaissances généralisés, en intégrant des graphes de connaissances, d'événements et de sens commun, et démontrent que leur approche améliore significativement la création de tous ces types de graphes.
2025-03-14Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation AssessmentCet article examine l'efficacité du modèle GPT-4o dans l'évaluation de la prononciation en utilisant des modèles multimodaux larges, en comparant ses résultats de scoring avec des scores manuels et en évaluant la qualité du feedback généré.
2025-03-14LLMPerf: GPU Performance Modeling meets Large Language ModelsDes chercheurs explorent l'utilisation des grands modèles de langage (LLM) pour estimer les performances des programmes OpenCL, révélant un potentiel prometteur tout en affrontant des défis de précision significatifs.
2025-03-14High-Dimensional Interlingual Representations of Large Language ModelsUne recherche démontre que les modèles de langage multilingues ne développent pas de façon consistante des alignements interlinguaux ; l'étude propose une nouvelle méthode et un score pour évaluer et améliorer ces alignements cruciaux pour l'apprentissage multilingue scalable.
2025-03-14BriLLM: Brain-inspired Large Language ModelLes chercheurs ont développé BriLLM, un modèle de langage inspiré du cerveau qui offre une interprétabilité complète grâce à son réseau de nœuds et propose un support multi-modal semblable aux mécanismes cognitifs humains.
2025-03-14GNNs as Predictors of Agentic Workflow PerformancesLes chercheurs proposent d'utiliser les Graph Neural Networks (GNN) pour prédire l'efficacité des workflows agentiques liés aux LLM, en optimisant les processus sans recours répété aux modèles de langage, via la plateforme FLORA-Bench.
2025-03-14Are formal and functional linguistic mechanisms dissociated?Les modèles de langage actuels montrent une séparation entre les mécanismes linguistiques formels et fonctionnels, mais l'unification des circuits formels reste insaisissable, malgré une potentialité de mécanismes partagés entre les tâches formelles.
2025-03-14Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation EngineeringCet article explore la capacité des modèles de langage à long raisonnement en chaîne (long CoT) et propose une méthode novatrice, GLoRE, pour améliorer cette compétence de façon généralisée, tout en soulignant l'importance des représentations spécifiques au domaine pour un transfert efficace.
2025-03-14MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech TokensLes chercheurs introduisent un cadre LLM multimodal avancé pour la reconnaissance audio-visuelle de la parole, optimisant l'utilisation des jetons et améliorant la performance, tout en réduisant les coûts computationnels de 35,7% grâce à une stratégie de fusion et allocation dynamique des jetons.
2025-03-14Safe-VAR: Safe Visual Autoregressive Model for Text-to-Image Generative WatermarkingDans cet article, les chercheurs présentent Safe-VAR, un cadre innovant de tatouage invisible conçu pour les modèles autoregressifs de génération de texte en image, optimisant la qualité visuelle et la robustesse des tatouages tout en surmontant les limitations des méthodes existantes pour les modèles de diffusion.
2025-03-14AIstorian lets AI be a historian: A KG-powered multi-agent system for accurate biography generationHuawei présente AIstorian, un système novateur pour la génération de biographies historiques, intégrant un graphe de connaissances et des agents anti-hallucinations, améliorant considérablement la précision factuelle et réduisant les hallucinations grâce à un apprentissage optimisé.
2025-03-14Cornstarch: Distributed Multimodal Training Must Be Multimodality-AwareDes chercheurs ont développé Cornstarch, un cadre de formation distribué pour les modèles de langage multimodal, qui optimise l'entraînement en intégrant parallélisme modulaire et spécifique à ces modèles, surpassant les solutions actuelles en efficacité.
2025-03-14Modeling Subjectivity in Cognitive Appraisal with Language ModelsLes chercheurs explorent le rôle de la subjectivité dans les modèles linguistiques, soulignant l'importance des traits de personnalité et des données démographiques pour améliorer leur capacité à mesurer des préférences humaines, tout en offrant des perspectives pour le développement futur de l'IA en psychologie cognitive.
2025-03-14Empowering Time Series Analysis with Synthetic Data: A Survey and Outlook in the Era of Foundation ModelsCet article analyse l'utilisation de données synthétiques pour améliorer les modèles de séries temporelles basés sur l'IA, offrant une solution aux contraintes de données en pré-entraînement et en évaluation, tout en explorant les directions futures de recherche.
2025-03-14D3: Diversity, Difficulty, and Dependability-Aware Data Selection for Sample-Efficient LLM Instruction TuningL'article propose une méthode innovante, D3, pour sélectionner des sous-ensembles de données précieux, basée sur la diversité, la difficulté et la fiabilité, afin d'améliorer l'affinement des instructions des grands modèles de langage, démontrant l'efficacité avec seulement 10 % des données d'origine.
2025-03-14A Review of DeepSeek Models' Key Innovative TechniquesL'article présente DeepSeek-V3 et DeepSeek-R1, deux modèles de langage à grande échelle open-source, qui rivalisent avec les performances des modèles propriétaires d'OpenAI et Anthropic tout en étant plus efficaces en termes de coûts d'entraînement, grâce à leurs innovations techniques avancées et une optimisation des architectures existantes.
2025-03-14V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal ReasoningLes chercheurs ont développé V-STaR, un benchmark évaluant les capacités des Video-LLMs en matière de raisonnement spatio-temporel, révélant des lacunes significatives par rapport à la logique humaine de compréhension des vidéos.
2025-03-14HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language ModelsL'article présente HiTVideo, une nouvelle approche de génération de texte vers vidéo utilisant des tokenizers hiérarchiques pour réduire la redondance et améliorer la qualité de reconstruction tout en augmentant l'efficacité de compression des séquences vidéo jusqu'à 70 %, offrant ainsi une solution prometteuse pour les défis actuels dans ce domaine.
2025-03-14VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning FidelityLes chercheurs présentent VERIFY, un benchmark conçu pour évaluer rigoureusement les capacités de raisonnement visuel des modèles multimodaux, révélant ainsi d'importantes limitations et appelant à une approche équilibrée entre perception et raisonnement.
2025-03-14Broaden your SCOPE! Efficient Multi-turn Conversation Planning for LLMs using Semantic SpaceL'article présente une approche innovante nommée SCOPE, qui optimise la planification des conversations dans l'espace sémantique, permettant ainsi une sélection rapide et efficace des réponses des modèles de langage, surpassant les méthodes de simulation traditionnelles.
2025-03-14ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction TuningLes chercheurs introduisent ASMA-Tune, un cadre d'instruction-tuning structuro-sémantique, qui améliore la compréhension du code assembleur en surpassant les méthodes actuelles grâce à une synergie entre architectures encodeur et modèles de langage de décodage. Leur modèle et données sont disponibles publiquement.
2025-03-13UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?Cet article explore l'utilisation de modèles de langue multimodaux (MLLMs) pour évaluer les vidéos générées par l'IA, en proposant un benchmark, UVE-Bench, qui montre le potentiel de ces modèles à surpasser les méthodes d'évaluation spécialisées existantes tout en offrant des pistes pour améliorer leur performance.
2025-03-13Exploring Mutual Empowerment Between Wireless Networks and RL-based LLMs: A SurveyCet article explore la synergie entre les grands modèles de langage basés sur l'apprentissage par renforcement et les réseaux sans fil, soulignant comment cette interaction pourrait révolutionner l'intelligence et l'efficacité des systèmes de communication futurs.
2025-03-13Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identificationLes chercheurs introduisent une approche de modélisation d'annotateurs humains pour améliorer la diversité des descriptions générées par les modèles multi-modaux, augmentant ainsi la capacité de généralisation des modèles de re-identification de personnes basés sur texte-image.
2025-03-13From Equations to Insights: Unraveling Symbolic Structures in PDEs with LLMsLes chercheurs proposent d'utiliser des grands modèles de langage pour découvrir des relations symboliques dans les équations différentielles partielles, améliorant ainsi l'efficacité et l'exactitude des méthodes de résolution de ces équations.
2025-03-13TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMsLes chercheurs ont développé un jeu de données et une nouvelle approche de calibrage pour améliorer la compréhension temporelle des modèles de langage vidéo, tout en évitant les annotations coûteuses, et ont créé un benchmark pour une évaluation plus précise.
2025-03-13How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape GameL'article introduit un benchmark novateur, MM-Escape, visant à évaluer les capacités de raisonnement multimodal des modèles de langage, révélant que leurs performances chutent radicalement avec la complexité des tâches, tout en soulignant les modes d'échec distincts et les limites à améliorer dans l'exploration spatiale et l'utilisation des objets.
2025-03-13Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based PolicyDes chercheurs ont proposé le LLM-based Graph Collaboration MARL, une nouvelle approche intégrant les modèles de langage et l'apprentissage par renforcement multi-agents pour optimiser la coordination des tâches complexes, avec des résultats prometteurs démontrés dans des environnements simulés.
2025-03-13SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language NavigationUn nouveau cadre zéro-shot pour la navigation en environnements 3D intègre un modèle amélioré de prédiction de waypoints et un modèle de langage multimodal, améliorant ainsi la qualité des waypoints, la planification adaptative et le raisonnement historique pour des performances robustes et compétitives sans supervision.
2025-03-13Information Density Principle for MLLM BenchmarksCet article propose le principe de la densité d'information pour évaluer les benchmarks des grands modèles linguistiques multimodaux (MLLMs), analysant les dimensions de la fausseté, de la difficulté, de la redondance et de la diversité afin d'améliorer leur fiabilité et leur utilité dans le développement de ces technologies.
2025-03-13Why Does Your CoT Prompt (Not) Work? Theoretical Analysis of Prompt Space Complexity, its Interaction with Answer Space During CoT Reasoning with LLMs: A Recurrent PerspectiveL'étude analyse les limitations des modèles de langage dans les tâches de raisonnement complexe, montrant que des invites spécifiques aux tâches surpassent les stratégies universelles grâce à une guidance humaine réfléchie.
2025-03-13Cognitive-Mental-LLM: Leveraging Reasoning in Large Language Models for Mental Health Prediction via Online TextL'étude explore comment les techniques de raisonnement améliorent les performances des modèles de langage pour classifier les textes liés à la santé mentale, révélant des gains significatifs sur certains ensembles de données, tout en mettant en lumière des défis de variabilité et d'interprétabilité du modèle.
2025-03-13StepMathAgent: A Step-Wise Agent for Evaluating Mathematical Processes through Tree-of-ErrorDes chercheurs ont développé StepMathAgent, un agent d'évaluation des processus mathématiques qui améliore l'analyse des grandes langues modèles en évaluant chaque étape de résolution, surpassant ainsi les méthodes existantes grâce à une approche plus interprétable et humaine via le benchmark StepMathBench.
2025-03-13Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative DecodingLes chercheurs introduisent Gumiho, un modèle hybride combinant des têtes en série et en parallèle pour améliorer l'efficacité et la précision de la génération de tokens dans les modèles de langage auto-régressifs, optimisant ainsi les performances par rapport aux méthodes existantes.
2025-03-13Retrieval-Augmented Generation with Hierarchical KnowledgeDans cet article, les chercheurs présentent HiRAG, une nouvelle méthode de récupération augmentée par génération utilisant la connaissance hiérarchique pour améliorer la performance des modèles de langage, surpassant les méthodes existantes.
2025-03-13"Well, Keep Thinking": Enhancing LLM Reasoning with Adaptive Injection DecodingDes chercheurs ont développé une stratégie de décodage innovante qui améliore les capacités de raisonnement des grands modèles de langage (LLM) sans nécessiter de prompts explicites, en injectant une phrase désignée pour éviter la conclusion prématurée des processus de raisonnement.
2025-03-13LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM AgentsLVAgent propose une approche innovante pour améliorer la compréhension des vidéos longues grâce à une collaboration dynamique entre des modèles de langage multimodal (MLLM), surpassant les performances des modèles existants et atteignant une précision de 80% sur des tâches de compréhension vidéo.
2025-03-13Adaptive Inner Speech-Text Alignment for LLM-based Speech TranslationUne nouvelle méthode, AI-STA, améliore la traduction vocale en alignant explicitement les représentations de la parole et du texte dans les modèles de langage étendus, surpassant les approches existantes en performance.
2025-03-13Efficient Federated Fine-Tuning of Large Language Models with Layer DropoutDropPEFT est un cadre innovant de fine-tuning fédéré utilisant un abandon aléatoire des couches de transformateur, optimisant ainsi la charge computationnelle et la mémoire pour les LLMs, avec une amélioration significative de la vitesse de convergence et l'efficacité de la mémoire.
2025-03-13Numerical Error Analysis of Large Language ModelsL'article analyse l'impact des erreurs d'arrondi dans le fonctionnement des modèles de langue basés sur l'architecture des transformeurs et propose des lignes directrices pour choisir les hyperparamètres qui réduisent ces erreurs, améliorant ainsi la stabilité du processus d'inférence.
2025-03-13An Expanded Massive Multilingual Dataset for High-Performance Language TechnologiesDes chercheurs ont développé HPLT v2, un ensemble de corpus multilingues et parallèles de haute qualité pour entraîner des modèles linguistiques, couvrant 193 langues avec 8T tokens et 51 langues avec 380M de paires de phrases, et ont évalué sa performance en traduction automatique.
2025-03-13VisualPRM: An Effective Process Reward Model for Multimodal ReasoningVisualPRM, un modèle avancé de processus de récompense multimodal avec 8 milliards de paramètres, améliore significativement les capacités de raisonnement des modèles de langage multimodal existants, surpassant les modèles de récompense de résultats et l'auto-consistance grâce à des évaluations BoN.
2025-03-13Capturing Semantic Flow of ML-based SystemsLes chercheurs introduisent le concept de "flux sémantique" pour analyser le comportement interne des systèmes basés sur l'apprentissage automatique, comme les réseaux neuronaux profonds et les modèles de langage, en adaptant des techniques traditionnelles d'analyse dynamique à travers des graphes de flux sémantique.
2025-03-13IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-IdentificationL'article présente IDEA, un nouveau cadre d'apprentissage qui améliore la recherche d'objets spécifiques en intégrant des informations multimodales, y compris des caractéristiques textuelles, pour générer des représentations plus robustes dans des scénarios complexes.
2025-03-13Collaborative Speculative Inference for Efficient LLM Inference ServingCoSine, un système d'inférence spéculatif avancé, améliore la collaboration entre nœuds pour optimiser la génération et la vérification des brouillons, diminuant ainsi la latence de 23.2% et augmentant le débit de 32.5% par rapport aux méthodes de référence.
2025-03-13G-Boost: Boosting Private SLMs with General LLMsUn article propose le cadre G-Boost, où un Small Language Model privé collabore de manière adaptative avec un Large Language Model général pour améliorer ses performances, démontrées par des expériences concluantes.
2025-03-13SPPO:Efficient Long-sequence LLM Training via Adaptive Sequence Pipeline Parallel OffloadingLes chercheurs proposent une nouvelle méthode, SPPO, pour réduire les exigences en mémoire et en ressources de calcul lors de l'entraînement de grands modèles linguistiques sur de longues séquences, améliorant ainsi l'efficacité de formation jusqu'à 3,38 fois par rapport aux solutions existantes.
2025-03-13CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based GuidanceL'article présente CINEMA, un cadre novateur pour la génération de vidéos personnalisées à plusieurs sujets, qui utilise un modèle de langage multimodal pour améliorer la cohérence et réduire l'ambiguïté sans nécessiter de correspondances explicites entre images et texte.
2025-03-13RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video ModelsLes chercheurs présentent RealGeneral, un cadre unifié pour la génération d'images utilisant des modèles vidéo, qui améliore la similarité de sujets et la qualité d'image dans des tâches visuelles distinctes grâce à une approche de prédiction de cadre conditionnelle.
2025-03-13Understanding the Logical Capabilities of Large Language Models via Out-of-Context Representation LearningDes chercheurs explorent comment les grands modèles de langage (LLM) gèrent les relations binaires en mathématiques, proposant un apprentissage des représentations hors contexte pour mieux évaluer leurs capacités logiques, et ainsi contourner les biais linguistiques présents dans les modèles existants.
2025-03-134D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language ModelsLes chercheurs ont présenté 4D LangSplat, un modèle qui intègre des champs de langage en quatre dimensions pour permettre des requêtes ouvertes sensibles au temps dans des scènes dynamiques, utilisant des objets et des vidéos, en surmontant les limitations de CLIP pour fournir des résultats précis et efficaces.
2025-03-13DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code GenerationDynaCode propose un benchmark dynamique et sensible à la complexité des LLMs, augmentant la diversité des problèmes de code et révélant leur capacité à gérer des structures imbriquées, tout en soulignant une baisse notable de performance par rapport aux benchmarks statiques.
2025-03-13MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model EvaluationL'article présente MMLU-ProX, un nouveau benchmark multilingue qui évalue les modèles de langage actuels en 13 langues, révélant une diminution de la performance dans les langues à faible ressources et soulignant les limites persistantes des capacités multilingues malgré les avancées récentes.
2025-03-13TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language ModelsLes chercheurs introduisent TokenCarve, un cadre novateur sans entraînement pour compresser les tokens visuels des modèles de langage multimodal, préservant ainsi la performance tout en réduisant considérablement les coûts de calcul.
2025-03-13SySLLM: Generating Synthesized Policy Summaries for Reinforcement Learning Agents Using Large Language ModelsLes chercheurs proposent SySLLM, une méthode innovante utilisant des modèles de langage pour synthétiser des résumés textuels de politiques générées par apprentissage par renforcement, surpassant les méthodes démonstratives dans la compréhension et la fiabilité des comportements d'agents.
2025-03-13Conformal Prediction Sets for Deep Generative Models via Reduction to Conformal RegressionL'article présente un algorithme simple et efficace, nommé Generative Prediction Sets (GPS), qui génère des ensembles de prédictions valides et optimaux à partir de modèles génératifs profonds, en garantissant des résultats conformes grâce à une approche de régression conforme.
2025-03-13Probing LLMs for Multilingual Discourse Generalization Through a Unified Label SetLes chercheurs examinent si les grands modèles de langage (LLMs) possèdent des connaissances discursives généralisables à travers les langues et les cadres, en proposant un ensemble unifié d'étiquettes de relation discursive et en testant 23 LLMs pour évaluer leur capacité à généraliser ces informations. Les résultats indiquent que les LLMs, en particulier ceux formés sur des corpus multilingues, réussissent cette généralisation, surtout dans les couches intermédiaires.
2025-03-13PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large ModelsLes chercheurs ont développé PiSA-Engine, un cadre novateur qui intègre des connaissances 2D et 3D pour améliorer les modèles génératifs à grande échelle, en créant des ensembles de données en 3D riches en sémantique spatiale. Leur modèle, PointLLM-PiSA, montre des améliorations significatives en évaluation sur le nouveau benchmark PiSA-Bench.
2025-03-13Unveiling the Mathematical Reasoning in DeepSeek Models: A Comparative Study of Large Language ModelsCet article présente une étude comparative des capacités de raisonnement mathématique des modèles DeepSeek par rapport à cinq modèles de grande envergure, révélant que DeepSeek-R1 surpasse ses pairs en précision, tout en identifiant des axes de développement futurs pour les LLMs.
2025-03-13Unlock the Power of Unlabeled Data in Language Driving ModelLes chercheurs proposent une méthode semi-supervisée qui utilise des données non annotées pour améliorer les modèles de conduite autonome VisionLLMs, surpassant les méthodes d’état de l’art avec seulement 5 % de données annotées, et démontrant une augmentation de performance notable en intégrant des données non annotées.
2025-03-13TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-InterventionLes chercheurs explorent comment les états internes des grands modèles vision-langage peuvent servir d'indicateurs précis des hallucinations d'objets, proposant une méthode innovante, TruthPrInt, pour guider les interventions en temps réel et améliorer la détection de ces hallucinations à travers différents modèles et données.
2025-03-13CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image EditingLes chercheurs proposent "CoSTA*", une approche en trois étapes combinant modèles de langage et recherche de graphes pour optimiser les séquences d'outils d'édition d'image, surpassant les modèles actuels en coûts et qualité selon un nouveau benchmark.
2025-03-13R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal FormalizationLes chercheurs introduisent R1-Onevision, un modèle de raisonnement multimodal qui transforme les images en représentations textuelles pour faciliter l'analyse visuelle et textuelle intégrée, surpassant les performances des modèles existants sur des tâches complexes.
2025-03-13Compositional Subspace Representation Fine-tuning for Adaptive Large Language ModelsDans cet article, les chercheurs introduisent CS-ReFT, une méthode innovante de fine-tuning qui réduit les interférences entre les tâches dans les modèles de langage large. En se concentrant sur les transformations de sous-espaces orthonormaux, CS-ReFT améliore le suivi des instructions multi-tâches tout en minimisant l'utilisation des paramètres du modèle.
2025-03-13From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLMLes chercheurs ont étendu le modèle multilingue TOWER aux capacités de traitement de la parole, créant ainsi SPIRE, qui peut transcrire et traduire des discours en anglais tout en conservant sa performance de traduction d'origine. Le code et les modèles sont disponibles en open-source pour la communauté.
2025-03-13UniGoal: Towards Universal Zero-shot Goal-oriented NavigationL'article présente un cadre novateur pour la navigation universelle à zéro-shot, en utilisant une représentation uniforme de graphes pour unifier différents objectifs, ce qui permet un raisonnement explicite basé sur les grands modèles de langage et offre une performance de pointe dépassant les méthodes traditionnelles dans plusieurs tâches de navigation.
2025-03-13GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and EditingLes chercheurs ont développé "Generation Chain-of-Thought" (GoT), une nouvelle approche de génération et d'édition d'images, qui intègre un processus de raisonnement explicite pour aligner les images produites sur l'intention humaine, en dépassant les méthodes basées uniquement sur des instructions textuelles.
2025-03-13ZeroMerge: Parameter-Free KV Cache Compression for Memory-Efficient Long-Context LLMsZeroMerge est un cadre de compression dynamique sans réglage préalable qui optimise la gestion des caches pour les grands modèles linguistiques, améliorant l'efficacité mémoire et la qualité de génération sans perte irréversible d'information ni besoin de réentraîner les modèles.
2025-03-13From Understanding to Excelling: Template-Free Algorithm Design through Structural-Functional Co-EvolutionUn cadre d'optimisation et génération d'algorithmes basé sur des modèles de langage étendu (LLM) surpasse les méthodes traditionnelles en s'appuyant sur une compréhension sémantique profonde et une co-évolution bidimensionnelle pour optimiser à la fois la fonctionnalité et la structure, démontrant une performance supérieure et un potentiel d'innovation accrue.
2025-03-13TacticExpert: Spatial-Temporal Graph Language Model for Basketball TacticsLes chercheurs ont développé TacticExpert, un modèle intégré pour la modélisation tactique fine en basketball, utilisant un Graph Transformer novateur et des techniques d'apprentissage contrastif pour améliorer l'efficacité et l'adaptabilité aux tâches non supervisées.
2025-03-13RankPO: Preference Optimization for Job-Talent MatchingUn cadre d'entraînement en deux étapes pour les modèles de langage est proposé, alliant apprentissage contrastif et une nouvelle méthode de fine-tuning, Rank Preference Optimization, pour améliorer l'adéquation entre descriptions de poste et profils candidats en équilibrant règles contextuelles et compréhension textuelle.
2025-03-13Samoyeds: Accelerating MoE Models with Structured Sparsity Leveraging Sparse Tensor CoresL'article présente Samoyeds, un système innovant pour accélérer les modèles de langage Mixture-of-Experts, qui applique la parcimonie aux activations et aux paramètres afin de surmonter les défis de calcul et de mémoire, augmentant ainsi l'efficacité et la précision des modèles.
2025-03-13Vulnerability Detection: From Formal Verification to Large Language Models and Hybrid Approaches: A Comprehensive OverviewCet article examine les méthodes de vérification logicielle, à travers l'analyse des méthodes formelles classiques, l'usage des modèles de langage (LLMs), et des techniques hybrides, soulignant le potentiel des systèmes hybrides pour améliorer l'efficacité et l'évolutivité des tests logiciels.
2025-03-13Thinking Machines: A Survey of LLM based Reasoning StrategiesL'article examine l'écart entre les compétences linguistiques et les capacités de raisonnement des modèles de langage étendu (LLMs) et propose des techniques pour renforcer le raisonnement, crucial pour l'utilisation responsable et efficace de l'IA dans des domaines critiques.
2025-03-13Who Relies More on World Knowledge and Bias for Syntactic Ambiguity Resolution: Humans or LLMs?Cette recherche montre que les modèles de langage réagissent différemment des humains face aux ambiguïtés dans les clauses relatives et privilégient des biais de connaissance mondiale plutôt que les variations syntaxiques dans six langues, révélant un besoin de formations plus nuancées pour améliorer leur compréhension linguistique complexe.
2025-03-13Teamwork makes the dream work: LLMs-Based Agents for GitHub README.MD SummarizationL'article présente Metagente, un cadre multi-agents basé sur des modèles de langage massif qui optimise les agents spécialisés pour améliorer la précision des tâches en ingénierie logicielle, surpassant significativement les méthodes conventionnelles telles que GitSum et LLaMA-2.
2025-03-13SCE: Scalable Consistency Ensembles Make Blackbox Large Language Model Generation More ReliableCet article présente Scalable Consistency Ensemble (SCE), un cadre efficace d'agrégation pour modèle linguistique, qui utilise les mécanismes SCE-CHECK et SCE-FUSION, et la technique YOPO pour réduire la complexité informatique, offrant ainsi des réponses cohérentes avec une performance améliorée et des coûts calculatoires réduits.
2025-03-13Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language DataLes chercheurs ont créé Chat-TS, un modèle de langage qui intègre des séries temporelles et des textes pour améliorer le raisonnement multimodal, avec de nouveaux ensembles de données pour l'évaluation et l'apprentissage, démontrant ainsi des performances de pointe.
2025-03-13Memory-Efficient 3D High-Resolution Medical Image Synthesis Using CRF-Guided GANsLes chercheurs ont développé une nouvelle architecture GAN utilisant des champs aléatoires conditionnels, permettant de générer des images médicales 3D haute résolution avec une consommation réduite de mémoire GPU, surpassant ainsi les modèles actuels selon leurs tests sur des scanners pulmonaires et IRM cérébrales.
2025-03-13Learning to Inference Adaptively for Multimodal Large Language ModelsAdaLLaVA est un cadre d'inférence adaptatif qui optimise dynamiquement les opérations des modèles de langage multimodal lors de l'inférence, respectant les contraintes de latence et de contenu pour améliorer l'efficacité même dans les environnements limités en ressources.
2025-03-13OASST-ETC Dataset: Alignment Signals from Eye-tracking Analysis of LLM ResponsesDes chercheurs ont créé OASST-ETC, un corpus novateur utilisant le suivi oculaire pour analyser comment les modèles de langage alignent leurs réponses sur les préférences humaines, révélant des modèles de lecture distincts et potentiellement utiles pour améliorer ces alignements.
2025-03-13Graph-Grounded LLMs: Leveraging Graphical Function Calling to Minimize LLM HallucinationsLes chercheurs présentent une méthode novatrice, les LLMs ancrés dans les graphes, intégrant une bibliothèque de graphes pour améliorer les performances en réduisant les hallucinations et les inexactitudes mathématiques, avec des applications prometteuses, notamment dans les secours en cas de catastrophe.
2025-03-13Empirical ComputationDans cet article, les chercheurs proposent l'idée de "computation empirique", une approche où les solutions aux problèmes informatiques sont déterminées empiriquement plutôt que formellement, remettant en question les concepts classiques de calcul. Ils explorent ses capacités et limites en vue d'établir cette approche comme un nouveau champ en ingénierie logicielle.
2025-03-12I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data?Les chercheurs introduisent un nouveau modèle génératif qui démontre que les grands modèles de langage apprennent des représentations de concepts interprétables par l'homme, corroborant l'hypothèse des représentations linéaires et soulignant leur capacité à capturer des facteurs génératifs sous-jacents.
2025-03-12Enhancing High-Quality Code Generation in Large Language Models with Comparative Prefix-TuningLes chercheurs ont développé une méthode de préfixage pour améliorer la qualité du code généré par les modèles linguistiques, réduisant le besoin de correction par les développeurs tout en préservant la précision fonctionnelle.
2025-03-12DAST: Difficulty-Aware Self-Training on Large Language ModelsLes chercheurs ont développé le cadre DAST pour améliorer l'entraînement des modèles de langage en ciblant les requêtes difficiles, en augmentant la quantité et la qualité des réponses générées; les essais ont prouvé son efficacité, notamment sur des tâches mathématiques.
2025-03-12Teaching LLMs How to Learn with Contextual Fine-TuningLes chercheurs présentent une méthode de fine-tuning contextuel des modèles de langage large (LLM), utilisant des instructions pour imiter les stratégies cognitives humaines, améliorant ainsi leur capacité d'adaptation rapide à de nouveaux ensembles de données dans des domaines spécifiques comme la médecine et la finance.
2025-03-12Self-Consistent Equation-guided Neural Networks for Censored Time-to-Event DataDes chercheurs ont développé une approche innovante utilisant des réseaux antagonistes génératifs pour estimer des fonctions de survie conditionnelles sans hypothèses paramétriques, affichant des performances prometteuses tant en simulation que sur des données réelles.
2025-03-12GRU: Mitigating the Trade-off between Unlearning and Retention for Large Language ModelsDes chercheurs proposent le Gradient Rectified Unlearning (GRU), un cadre amélioré pour l'effacement ciblé dans les modèles linguistiques de grande taille, qui optimise les gradients pour éviter les effets secondaires sur la fonctionnalité générale tout en garantissant un respect accru des exigences de confidentialité et de droits d'auteur.
2025-03-12Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video UnderstandingLes chercheurs proposent Ego-ExoClip, un ensemble de données pré-entraînées pour transformer la compréhension vidéo egocentrique des IA, surpassant les modèles multimodaux existants grâce à l'apprentissage du domaine exocentrique.
2025-03-12Generative Frame Sampler for Long Video UnderstandingLes chercheurs introduisent le module Generative Frame Sampler (GenS), qui améliore la perception des vidéos longues dans les modèles de langage vidéo, démontrant des gains de performance significatifs sur les benchmarks grâce à un dataset spécialisé, GenS-Video-150K.
2025-03-12FaVChat: Unlocking Fine-Grained Facail Video Understanding with Multimodal Large Language ModelsLes chercheurs proposent FaVChat, un modèle multimodal inédit pour la compréhension avancée des visages dans les vidéos, utilisant une grande base de données annotée et une architecture hybride pour améliorer la précision des interprétations faciales en vidéo.
2025-03-12Token Weighting for Long-Range Language ModelingL'article explore comment des schémas de pondération novateurs pour les tokens dans les modèles de langage peuvent améliorer la compréhension des contextes longs, en montrant que des poids de perte non uniformes augmentent les performances des LLMs dans ce domaine.
2025-03-12Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation ModelLes chercheurs proposent l'approche Audio-Video Vector Alignment (AVVA) qui améliore la précision du modèle de formation multimodal en alignant les données audiovisuelles par une curation optimale via un Large Language Model, démontrant des gains substantiels de précision avec moins de données.
2025-03-12Why LLMs Cannot Think and How to Fix ItLes modèles de langage actuels ne peuvent pas développer de véritables "pensées" en raison de leurs contraintes architecturales. Les chercheurs proposent des solutions architecturales pour y remédier et discutent des implications de ces modifications.
2025-03-12COLA: A Scalable Multi-Agent Framework For Windows UI Task AutomationLes chercheurs ont créé le cadre \textit{COLA} pour automatiser les opérations d'interface utilisateur Windows, utilisant des agents dynamiques et une mémorisation évolutive pour pallier les limitations des architectures statiques et des processus peu évolutifs, tout en permettant des interventions humaines.
2025-03-12Crowdsourced Homophily Ties Based Graph Annotation Via Large Language ModelDes chercheurs introduisent CSA-LLM, une méthode innovante de crowdsourcing combinée à de grands modèles de langage pour améliorer l'annotation de graphes, augmentant ainsi la précision des réseaux de neurones de graphes.
2025-03-12Priority-Aware Preemptive Scheduling for Mixed-Priority Workloads in MoE InferenceLes chercheurs ont développé QLLM, un système d'inférence innovant pour optimiser la gestion des modèles de langage MoE en centres de données, améliorant considérablement les performances des tâches sensibles à la latence grâce à un ordonnanceur qui ajuste les priorités des tâches en temps réel.
2025-03-12xVLM2Vec: Adapting LVLM-based embedding models to multilinguality using Self-Knowledge DistillationLes chercheurs proposent une méthode d'adaptation des grands modèles vision-langage pour améliorer l'extraction de représentations multilingues et multimodales, et introduisent un benchmark pour évaluer leur efficacité.
2025-03-12A Survey on Enhancing Causal Reasoning Ability of Large Language ModelsUn article de synthèse examine comment améliorer la capacité de raisonnement causal des modèles linguistiques de grande taille, en présentant une nouvelle taxonomie pour classer les méthodes existantes et en indiquant les directions futures de recherche dans ce domaine émergent.
2025-03-12Towards Next-Generation Recommender Systems: A Benchmark for Personalized Recommendation Assistant with LLMsLes chercheurs ont développé RecBench+, un nouveau benchmark de données pour évaluer les capacités des grands modèles de langage à traiter des scénarios de recommandation complexes, révélant que ces modèles ont des capacités limitées lorsqu'il s'agit de requêtes nécessitant un raisonnement ou contenant des informations trompeuses.
2025-03-12Florenz: Scaling Laws for Systematic Generalization in Vision-Language ModelsLes chercheurs développent Florenz, un modèle de vision-langage monolingue qui excelle dans des tâches de vision multilingue malgré l'entraînement sur des données dans une seule langue, en démontrant son efficacité dans la génération d'images et la traduction multimodale grâce à un pipeline innovant de données synthétiques.
2025-03-12Explicit Learning and the LLM in Machine TranslationCette étude révèle que les grands modèles de langue ont une capacité limitée à apprendre explicitement des règles grammaticales, surtout lorsque les phénomènes linguistiques deviennent complexes, nécessitant des ensembles de formation plus diversifiés et de nouvelles stratégies de réglage fin pour améliorer cette compétence.
2025-03-12BAMBI: Developing Baby Language Models for ItalianL'article examine BAMBI, des modèles linguistiques réduits pour l'italien, montrant que malgré un apprentissage limité, ils rivalisent avec les grands modèles, soulignant l'importance d'approches variées comme l'intégration multimodale pour optimiser la performance.
2025-03-12ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement LearningDes chercheurs ont développé un cadre novateur, Reinforced Meta-thinking Agents (ReMA), qui utilise l'apprentissage par renforcement multi-agent pour intégrer le méta-pensée dans les grands modèles linguistiques, améliorant significativement leurs capacités de raisonnement sur des tâches complexes.
2025-03-12Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement LearningL'article présente Search-R1, un modèle de recherche autonome où les grands modèles de langage optimisent leurs requêtes via apprentissage par renforcement, améliorant les performances de 10 à 26% sur plusieurs ensembles de données de question-réponse par rapport aux approches existantes.
2025-03-12Large Language Models for Multi-Facility Location Mechanism DesignUn nouvel outil, LLMMech, utilise les grands modèles de langage dans un cadre évolutif pour créer des mécanismes de localisation multi-facilité qui sont à la fois stratégiquement robustes, sans hyperparamètres et interprétables, surmontant ainsi les limites des modèles d'apprentissage profond.
2025-03-12Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language ModelsCet article propose une analyse approfondie des chaînes de pensée longues (Long CoT) pour améliorer le raisonnement des modèles de langage, comparées aux chaînes courtes (Short CoT), avec l'objectif de combler les lacunes actuelles et de stimuler la recherche autour du raisonnement logique en intelligence artificielle.
2025-03-12Plan-and-Act: Improving Planning of Agents for Long-Horizon TasksLes chercheurs ont développé "Plan-and-Act", un cadre novateur intégrant explicitement la planification dans les modèles de langage pour améliorer la génération de plans, atteignant un taux de succès de 54 % pour des tâches de planification complexes telles que la navigation web.
2025-03-12Cost-Optimal Grouped-Query Attention for Long-Context LLMsCet article de recherche explore l'impact de la longueur de contexte et de la configuration des têtes d'attention sur les modèles de langage de grande taille, découvrant qu'un modèle plus volumineux avec moins de têtes d'attention peut améliorer la performance tout en réduisant les coûts computationnels et de mémoire lors du traitement de longues séquences.
2025-03-12BIMBA: Selective-Scan Compression for Long-Range Video Question AnsweringL'article présente BIMBA, un modèle d'état innovant permettant des questions-réponses vidéo sur des séquences longues, optimisant ainsi l'attention à l'information clé tout en réduisant les coûts de calcul. Des tests démontrent sa précision exceptionnelle sur plusieurs bancs d'évaluation à long terme.
2025-03-12MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation SystemCet article présente une méthode d'évaluation pour améliorer la qualité du découpage de texte dans les systèmes de génération augmentée par la récupération (RAG), introduisant le cadre MoC qui optimise la précision et l'efficacité en exploitant les grands modèles de langage.
2025-03-12A Review on Proprietary Accelerators for Large Language ModelsCet article explore l'importance croissante des accélérateurs pour les modèles de langage de grande taille (LLM) et offre une analyse détaillée des caractéristiques matérielles et logicielles des principaux accélérateurs commerciaux, en proposant des orientations pour les futurs développements technologiques.
2025-03-12LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and SemanticsDes chercheurs ont développé LLM-PS, un modèle de langage optimisé pour la prévision de séries temporelles, en intégrant des réseaux de neurones convolutionnels multi-échelles pour capturer les fluctuations et tendances, ainsi qu'un module de temps-texte pour extraire des sémantiques pertinentes, atteignant des performances de pointe dans la prévision à court et long termes.
2025-03-12Týr-the-Pruner: Unlocking Accurate 50% Structural Pruning for LLMs via Global Sparsity Distribution OptimizationTýr-the-Pruner est un cadre de réduction structurelle globale pour les grands modèles de langage, améliorant l'efficacité sans compromettre les performances, en conservant 97% des capacités d'un modèle dense tout en réduisant de moitié ses paramètres.
2025-03-12Have LLMs Made Active Learning Obsolete? Surveying the NLP CommunityLes chercheurs examinent la pertinence actuelle de l'apprentissage actif, en comparant ses obstacles et pratiques dans la communauté NLP face aux avancées des grands modèles de langage, et concluent que l'annotation de données reste cruciale malgré des défis persistants.
2025-03-12Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem ProvingDes chercheurs ont conçu un système pour la démonstration automatique de théorèmes utilisant un vérificateur automatisé qui fournit un feedback à chaque étape du raisonnement, améliorant ainsi l'exactitude et l'efficacité globale du modèle.
2025-03-12Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided RetrievalLes chercheurs identifient les limites des grands modèles linguistiques en matière de raisonnement sur de longs textes et proposent "Attrieval", une méthode innovante sans entraînement utilisant des poids d'attention pour améliorer la récupération d'informations implicites et optimiser les performances de raisonnement.
2025-03-12Generative AI for Named Entity Recognition in Low-Resource Language NepaliCet article examine l'application de modèles de langage avancés pour la reconnaissance d'entités nommées en népalais, en explorant différentes techniques de sollicitation pour évaluer leur efficacité et contribuer à la recherche NLP dans les langues à faible ressource.
2025-03-12Information-Energy Capacity Region for SLIPT Systems over Lognormal Fading Channels: A Theoretical and Learning-Based AnalysisCet article analyse la capacité d'information-énergie des systèmes SLIPT sur des canaux à évanouissement log-normal, mettant en lumière une distribution d'entrée optimale discrète et introduisant un cadre d'apprentissage novateur pour estimer et optimiser cette capacité via des réseaux adversariaux génératifs, avec des résultats numériques validant leur approche.
2025-03-12LuciBot: Automated Robot Policy Learning from Generated VideosCet article propose une approche innovante utilisant des modèles de génération vidéo pour améliorer la supervision des tâches incarnées complexes en simulation, surpassant les limites des modèles de langage et de vision-langage existants en matière de perception et d'expressivité.
2025-03-12What's In Your Field? Mapping Scientific Research with Knowledge Graphs and Large Language ModelsLes chercheurs ont développé un système prototype qui combine la compréhension sémantique des grands modèles linguistiques (LLMs) avec des représentations structurées pour répondre à des questions précises sur la littérature scientifique, en extrayant des concepts de 30,000 articles sur des domaines variés, révélant ainsi des tendances émergentes et offrant de nouvelles façons d'explorer le savoir scientifique.
2025-03-12Improving the Reusability of Conversational Search Test CollectionsLes chercheurs démontrent que l'utilisation de modèles de langage comme le Llama 3.1, via un entraînement rapide, peut combler les lacunes dans les collections de tests de recherche conversationnelle, améliorant ainsi l'équité et la réutilisabilité des évaluations de nouveaux systèmes.
2025-03-12Conversational Gold: Evaluating Personalized Conversational Search System using Gold NuggetsLes chercheurs présentent une nouvelle ressource pour évaluer l'efficacité des systèmes de génération de réponses augmentées par la récupération (RAG), utilisant une évaluation par "nuggets" pour améliorer la recherche conversationnelle personnalisée.
2025-03-12Zero-Shot Subject-Centric Generation for Creative Application Using Entropy FusionLes chercheurs ont développé une méthode innovante pour générer des images centrées sur le sujet avec une technologie de fusion basée sur l'entropie, améliorant la qualité et la précision des images générées par rapport aux modèles existants.
2025-03-12TA-V2A: Textually Assisted Video-to-Audio GenerationDes chercheurs ont développé TA-V2A, un modèle qui enrichit la génération vidéo-à-audio en intégrant des caractéristiques de langage, audio et vidéo pour améliorer la représentation sémantique et l'alignement temporel, grâce à l'utilisation de modèles de diffusion et de langage.
2025-03-11LLM-based Corroborating and Refuting Evidence Retrieval for Scientific Claim VerificationCIBER est une extension du cadre RAG visant à améliorer la vérification des affirmations scientifiques en identifiant des documents corroborants ou réfutants, apportant ainsi une nouvelle approche sans supervision pour analyser les modèles de langage avec des évaluations démontrant son efficacité supérieure.
2025-03-11EFPC: Towards Efficient and Flexible Prompt CompressionLes chercheurs présentent EFPC, une méthode novatrice de compression de prompts qui améliore l'efficacité et la précision des modèles de langage, surpassant la méthode LLMLingua-2 sur le benchmark LongBench tout en nécessitant peu de données.
2025-03-11MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action ModelsCet article présente MoRE, un modèle innovant de quadrupèdes alliant vision, langage et action, utilisant l'apprentissage par renforcement pour optimiser les performances sur diverses tâches en environnements réels, surpassant les références existantes et démontrant une excellente généralisation.
2025-03-11A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research ProspectsL'article de recherche passe en revue plus de 200 études sur la généralisation des technologies de détection Wi-Fi et propose des solutions pour atténuer l'impact des variations environnementales, tout en explorant de nouvelles directions telles que l'intégration de modèles linguistiques étendus.
2025-03-11In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue AgentsLes chercheurs présentent le Reflective Memory Management (RMM), une nouvelle approche pour améliorer la gestion de la mémoire des modèles linguistiques larges en utilisant des réflexions prospectives et rétrospectives, ce qui améliore notablement la performance des dialogues longs.
2025-03-11Learning to Search Effective Example Sequences for In-Context LearningDes chercheurs présentent BESC, une nouvelle méthode de construction séquentielle d'exemples optimaux pour les modèles de langage large, qui améliore les capacités d'apprentissage grâce à une approche intégrée utilisant la recherche en faisceau, démontrant des résultats prometteurs sur diverses bases de données et modèles linguistiques.
2025-03-11Adapting Large Language Models for Parameter-Efficient Log Anomaly DetectionCet article explore l'adaptation d'algorithmes de fine-tuning de paramètres pour les modèles de langage dans la détection des anomalies de journaux, en utilisant LoRA et ReFT sur trois LLMs, révélant efficacité et robustesse sur des ensembles de données variés.
2025-03-11Odysseus Navigates the Sirens' Song: Dynamic Focus Decoding for Factual and Diverse Open-Ended Text GenerationCet article présente le "Dynamic Focus Decoding", une nouvelle méthode stochastique intégrable qui améliore la précision factuelle et la diversité des modèles de langage, sans nécessiter de ressources supplémentaires, en ajustant dynamiquement le focus de décodage selon les variations distributionnelles entre les couches.
2025-03-11LLM4MAC: An LLM-Driven Reinforcement Learning Framework for MAC Protocol EmergenceL'article présente LLM4MAC, un cadre innovant exploitant les modèles de langage de grande taille dans un paradigme d'apprentissage par renforcement pour optimiser les protocoles d'accès au média dans les systèmes 6G, en améliorant le débit et la généralisation via un jeu de Markov et une optimisation de politique proximale.
2025-03-11Large Scale Multi-Task Bayesian Optimization with Large Language ModelsL'article présente une méthode novatrice utilisant les grands modèles de langage (LLM) pour améliorer l'efficacité de l'optimisation multitâche en s'inspirant des trajectoires antérieures, démontrant d'excellentes performances dans la conception de peptides antimicrobiens et l'optimisation de requêtes de bases de données.
2025-03-11Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT MethodDes chercheurs ont optimisé l'utilisation des modèles vision-language pour détecter des objets dans des images de télédétection, en convertissant les annotations traditionnelles en instructions en langage naturel, démontrant que cette approche fonctionne efficacement sans modifier l'architecture du modèle.
2025-03-11RigoChat 2: an adapted language model to Spanish using a bounded dataset and reduced hardwareDes chercheurs ont réussi à optimiser un modèle de langage existant, RigoChat 2, pour des tâches en espagnol, en utilisant moins de ressources tout en conservant des performances élevées, démontrant ainsi qu'une approche ciblée peut améliorer efficacement les modèles d'IA générative.
2025-03-11A Cascading Cooperative Multi-agent Framework for On-ramp Merging Control Integrating Large Language ModelsLes chercheurs introduisent le cadre Cascade Cooperative Multi-agent (CCMA), combinant apprentissage par renforcement et modèles de langage pour améliorer la coordination multi-agents et l'optimisation dans des scénarios de conduite complexes, surpassant les méthodes existantes.
2025-03-11Route Sparse Autoencoder to Interpret Large Language ModelsLa recherche introduit RouteSAE, un framework novateur qui utilise un mécanisme de routage pour améliorer l'interprétabilité des modèles de langage, capturant efficacement les activations sur plusieurs couches et augmentant de 22,5% les fonctionnalités extraites par rapport aux autoencodeurs épars traditionnels.
2025-03-11LangTime: A Language-Guided Unified Model for Time Series Forecasting with Proximal Policy OptimizationLes chercheurs ont développé LangTime, un modèle unifié pour la prévision des séries temporelles, qui utilise des prompts de compréhension temporelle et un algorithme de réglage fin basé sur l'apprentissage par renforcement pour surmonter les défis d'alignement croisé et d'accumulation d'erreurs, améliorant ainsi significativement la précision de la prévision.
2025-03-11Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic FrameworkL'article présente SRICE, un cadre de raisonnement multimodal sans entraînement qui améliore la précision des modèles linguistiques en intégrant des modèles de vision externes avec une quantification de l'incertitude, surpassant les méthodes basées sur un entraînement coûteux.
2025-03-11Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM InferenceL'étude explore les inefficiences liées à l'inférence des grands modèles de langage, identifiant la saturation de la bande passante mémoire comme le principal problème. Les chercheurs proposent un outil d'optimisation de l'allocation mémoire pour améliorer la performance, bouleversant ainsi les idées reçues sur l'utilisation des ressources GPU.
2025-03-11OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval LearningDans cette étude, les chercheurs montrent que OpenRAG, un cadre optimisé de génération augmentée par récupération, améliore significativement les performances des systèmes de récupération grâce à un ajustement end-to-end du récupérateur, surpassant les modèles existants tout en offrant une solution rentable pour les systèmes RAG.
2025-03-11TokenSim: Enabling Hardware and Software Exploration for Large Language Model Inference SystemsLe travail des chercheurs présente TokenSim, un système d'exploration de matériel et logiciel optimisé pour l'inférence des modèles de langage à grande échelle, capable de réduire l'erreur de performance à moins de 1% avec des solutions extensibles de gestion de la mémoire et de programmation.
2025-03-11KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative DocumentsLes chercheurs introduisent Knowledge-Aware Preprocessing (KAP), un cadre de prétraitement en deux étapes pour améliorer la précision de la recherche dans les systèmes de récupération hybride en traitant les documents non narratifs en chinois traditionnel.
2025-03-11FastCache: Optimizing Multimodal LLM Serving through Lightweight KV-Cache Compression Framework\texttt{FastCache} optimise la performance des modèles de langage multi-modal grâce à une stratégie de batch dynamique et un mécanisme de mémoire, réduisant significativement le temps de traitement et la consommation de mémoire dans des scénarios de haute concurrence.
2025-03-11Enhancing Multi-Hop Fact Verification with Structured Knowledge-Augmented Large Language ModelsL'article propose un nouveau réseau basé sur des modèles linguistiques de grande taille (LLM-SKAN) pour la vérification de faits multi-hop, soulignant l'importance de l'extraction des relations entre entités pour améliorer la précision des prédictions.
2025-03-11ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper ReviewsL'article propose un cadre innovant, ReviewAgents, utilisant les grands modèles de langage pour automatiser les revues académiques, avec un dataset unique Review-CoT, révélant ainsi les limites et potentiels des LLMs par rapport aux évaluations humaines.
2025-03-11Referring to Any PersonLes chercheurs présentent HumanRef, un nouveau jeu de données, et RexSeek, un modèle amélioré pour la détection de personnes via descriptions en langage naturel, surmontant les limites des modèles existants en matière de référence multiple.
2025-03-11LightPlanner: Unleashing the Reasoning Capabilities of Lightweight Large Language Models in Task PlanningL'article présente LightPlanner, un planificateur de tâches innovant qui améliore les performances des modèles légers de langage dans la planification de tâches complexes en robotique, surpassant les concurrents grâce à une approche hiérarchique de raisonnement profond et une gestion efficace de la mémoire.
2025-03-11Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference EfficiencyLes chercheurs introduisent une méthode innovante sans nécessiter de réentraînement, appelée Position-Aware Depth Decay Decoding (D³), qui optimise l'inférence des grands modèles de langage en réduisant de moitié les opérations nécessaires tout en conservant des performances similaires.
2025-03-11GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent TrainingLe travail explore l'utilisation du cadre GTR (Guided Thought Reinforcement) pour améliorer le raisonnement et les actions des modèles vision-langage, en évitant l'effondrement de la pensée et en augmentant considérablement le taux de réussite des tâches dans des environnements visuels complexes.
2025-03-11Mellow: a small audio language model for reasoningL'article présente Mellow, un modèle audio-langage de petite taille conçu pour le raisonnement qui surpasse plusieurs grands modèles, tout en utilisant beaucoup moins de ressources, grâce au nouveau set de données ReasonAQA.
2025-03-11Transferring Extreme Subword Style Using Ngram Model-Based Logit ScalingLes chercheurs ont développé une technique de mise à l'échelle logit basée sur un modèle ngram pour transférer la variation stylistique extrême des sous-mots aux grands modèles linguistiques, optimisant ainsi la perplexité du texte généré tout en respectant le style d'un auteur ou personnage cible.
2025-03-11Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMsLes chercheurs ont développé une méthode en deux étapes utilisant des modèles de langage pour améliorer la prédiction de la difficulté des QCM, surpassant les méthodes existantes avec une réduction significative de l'erreur moyenne quadratique et un meilleur coefficient de détermination.
2025-03-11RAG-Adapter: A Plug-and-Play RAG-enhanced Framework for Long Video UnderstandingLes chercheurs ont développé le RAG-Adapter, une technologie qui améliore le test d'évaluation des modèles linguistiques multi-modaux (MLLMs) sur des vidéos longues en réduisant la perte d'information, augmentant ainsi la précision de ces tests par rapport à l'échantillonnage uniforme.
2025-03-11HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video UnderstandingL'article présente HierarQ, un cadre basé sur un transformateur hiérarchique Q-Former qui améliore la compréhension des vidéos moyennes à longues en évitant l'échantillonnage de trames, en intégrant une modulateur de caractéristiques guidé par le langage pour une perception plus précise et contextuelle des vidéos. Les résultats montrent que HierarQ excelle dans l'analyse vidéo en offrant des performances de pointe sur 10 ensembles de données de référence.
2025-03-11NSF-SciFy: Mining the NSF Awards Database for Scientific ClaimsLes chercheurs ont créé NSF-SciFy, un vaste ensemble de données pour l'extraction de revendications scientifiques à partir des résumés de subventions NSF, introduisant une nouvelle tâche de différenciation entre revendications existantes et intentions de recherche aspirantes, et ont démontré des améliorations significatives en extraction de revendications et de propositions de recherche grâce à des modèles linguistiques avancés.
2025-03-11LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference OptimizationL'équipe de recherche présente LightGen, un modèle de génération d'images utilisant une approche efficace avec la distillation de connaissances et l'optimisation directe des préférences, permettant une réduction significative des besoins en ressources informatiques tout en maintenant une qualité comparable aux modèles de pointe.
2025-03-11Exploring the Word Sense Disambiguation Capabilities of Large Language ModelsCet article évalue les performances des grands modèles de langage (LLM) sur la désambiguïsation lexicale, révélant qu'un modèle affiné de taille moyenne surpasse les méthodes actuelles les plus avancées, bien qu'en apprentissage zero-shot, les LLMs ne dépassent pas les performances des techniques traditionnelles.
2025-03-11Self-Taught Self-Correction for Small Language ModelsLes chercheurs présentent l'algorithme STaSC qui permet aux petits modèles de langage de s'autocorriger par un affinage itératif utilisant des données auto-générées, améliorant ainsi leur performance sur les tâches de questions-réponses sans recourir à des outils externes ou modèles propriétaires.
2025-03-11SIMAC: A Semantic-Driven Integrated Multimodal Sensing And Communication FrameworkDes chercheurs présentent le SIMAC, un cadre intégrant multimodalité et communication pour améliorer l'exactitude des systèmes de détection, combinant une architecture de codage conjointe et un réseau fusionnant des informations sémantiques de multiples sources, avec des résultats prometteurs en précision et diversité des services de détection.
2025-03-11Training Plug-n-Play Knowledge Modules with Deep Context DistillationLes chercheurs proposent une solution innovante pour intégrer de nouvelles informations dans les modèles de langage grâce à des modules de connaissances documentaires spécialisés, améliorant les performances en situation de faible données et réduisant les coûts d'inférence, tout en surpassant les techniques traditionnelles dans deux jeux de données.
2025-03-11IA generativa aplicada a la detección del cáncer a través de Resonancia MagnéticaL'étude explore le potentiel de l'IA, via ChatGPT-4o, pour accroître les connaissances en analysant le cancer du sein avec des images DCE-MRI, tout en examinant ses limites et les implications méthodologiques d'une recherche scientifique automatisée.
2025-03-11Robust Multi-Objective Controlled Decoding of Large Language ModelsLes chercheurs proposent un algorithme innovant, RMOD, pour aligner les réponses des modèles de langage large avec plusieurs objectifs simultanés, optimisant les récompenses dans des scénarios de pire cas, et démontrant une performance supérieure aux méthodes existantes.
2025-03-11Super-resolution of turbulent velocity and scalar fields using different scalar distributionsDes chercheurs évaluent la capacité de généralisation d'un modèle GAN super-résolution pour la simulation de turbulence, découvrant qu'en intégrant des distributions extrêmes dans les données d'entraînement, la précision sur les distributions inédites est améliorée.
2025-03-11Contrastive Speaker-Aware Learning for Multi-party Dialogue Generation with LLMsUn nouvel article présente le modèle SA-LLM, une approche innovante pour la génération de dialogues multi-parties qui utilise des modèles de langage de grande taille pré-entrainés et une stratégie d'apprentissage contrastif sensible aux locuteurs, surpassant les méthodes existantes sans nécessiter d'annotations de relations explicites.
2025-03-11Interpretable and Robust Dialogue State Tracking via Natural Language Summarization with LLMsLes chercheurs proposent une nouvelle méthode de suivi d'état de dialogue en utilisant des modèles de langage de grande taille pour générer des descriptions en langage naturel, surpassant les approches traditionnelles et offrant une plus grande précision et adaptabilité face aux dialogues complexes.
2025-03-11LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context InferenceLes chercheurs introduisent SAGE-KV, un nouvel algorithme qui optimise l'inférence à contexte long dans les modèles de langage en réduisant la cache mémoire tout en maintenant la précision, augmentant ainsi l'efficacité de l'utilisation de mémoire.
2025-03-11Gradient-guided Attention Map Editing: Towards Efficient Contextual Hallucination MitigationUne méthode innovante, "Guided Attention Map Editing" (GAME), est présentée pour améliorer la pertinence contextuelle dans les modèles de langage en modifiant dynamiquement les cartes d'attention, réduisant ainsi les hallucinations contextuelles lors de tâches de synthèse et de questionnement, tout en améliorant l'efficacité computationnelle.