Date | Titre | Résumé |
2025-03-14 | Combinatorial Optimization for All: Using LLMs to Aid Non-Experts in Improving Optimization Algorithms | Des chercheurs montrent que les modèles de langage étendu (LLMs) peuvent améliorer des algorithmes d'optimisation existants pour le problème du voyageur de commerce, en améliorant la qualité des solutions, réduisant le temps de calcul et simplifiant la complexité du code, sans exiger d'expertise spécialisée. |
2025-03-14 | From Dionysius Emerges Apollo -- Learning Patterns and Abstractions from Perceptual Sequences | Cet article de recherche explore le processus de segmentation de flux sensoriels en séquences, connu sous le nom de "chunking", et propose des modèles de chunking et d'abstraction qui miment l'apprentissage humain pour découvrir des motifs symboliques invariants et acquérir des connaissances structurées, comparés aux modèles de langage. |
2025-03-14 | Statistical Impossibility and Possibility of Aligning LLMs with Human Preferences: From Condorcet Paradox to Nash Equilibrium | Cet article explore les limites statistiques pour aligner les modèles de langage avec les préférences humaines, démontrant l'impossibilité d'un alignement complet via des approches basées sur la récompense, et propose un algorithme efficace pour identifier des équilibres de Nash, préservant la diversité des préférences. |
2025-03-14 | TigerLLM -- A Family of Bangla Large Language Models | Des chercheurs ont élaboré TigerLLM, une nouvelle génération de modèles de langage en Bangla surpassant les alternatives open-source et même les modèles propriétaires, établissant ainsi un nouveau standard pour la modélisation linguistique en Bangla. |
2025-03-14 | RONA: Pragmatically Diverse Image Captioning with Coherence Relations | Les chercheurs ont développé RONA, une nouvelle stratégie de guidage pour les modèles de langage multi-modal, améliorant la diversité et l'alignement des légendes d'images, en utilisant les relations de cohérence comme axe de variation. |
2025-03-14 | Beyond A Single AI Cluster: A Survey of Decentralized LLM Training | Cet article explore la formation décentralisée des grands modèles linguistiques (LLMs) comme une solution prometteuse pour démocratiser leur développement, par l'utilisation des ressources dispersées mondialement, en présentant une analyse approfondie et des études de cas actuelles. |
2025-03-14 | Generative Modelling for Mathematical Discovery | Les chercheurs ont développé "funsearch", un algorithme génétique guidé par des modèles de langage, destiné à générer des exemples pertinents pour les mathématiciens, efficace dans différents problèmes combinatoires et théoriques sans nécessiter de compétences spécifiques en apprentissage machine ou ressources informatiques avancées. |
2025-03-14 | Large Reasoning Models in Agent Scenarios: Exploring the Necessity of Reasoning Capabilities | L'article explore les modèles de raisonnement avancés (LRMs) et leur impact sur les cadres traditionnels, révélant leur supériorité dans les tâches nécessitant un raisonnement intensif mais à un coût computationnel plus élevé, comparativement aux modèles de langage traditionnels (LLMs) axés sur l'exécution. |
2025-03-14 | Prompt Alchemy: Automatic Prompt Refinement for Enhancing Code Generation | L'article présente Prochemy, une méthode novatrice qui automatise l'optimisation des invites pour améliorer la génération et traduction de code par les grands modèles de langage, augmentant ainsi la performance et la cohérence sans intervention humaine directe. |
2025-03-14 | EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks | Des chercheurs proposent EmbodiedVSR, un cadre novateur intégrant un raisonnement en chaîne basé sur des graphes de scènes dynamiques, qui améliore la compréhension spatiale des agents incarnés sans ajustement spécifique aux tâches, se révélant plus performant que les méthodes basées sur les MLLM actuels pour des tâches complexes à long terme. |
2025-03-14 | OmniDiff: A Comprehensive Benchmark for Fine-grained Image Difference Captioning | L'article présente OmniDiff, un nouveau jeu de données diversifié pour la génération de descriptions de différences entre images, et M$^3$Diff, un modèle multi-modal amélioré, qui ensemble surpassent les performances des précédents benchmarks en reconnaissance de différences inter-images. |
2025-03-14 | Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space | Les chercheurs ont développé Open3DVQA, un benchmark évaluant la capacité de raisonnement spatial des modèles de langage multimodal en espace 3D, révélant l'efficacité variable des modèles selon le type de relations spatiales et suggérant que l'affinement des modèles améliore leurs performances. |
2025-03-14 | Quantifying Interpretability in CLIP Models with Concept Consistency | L'article explore les mécanismes internes des modèles CLIP en introduisant le Concept Consistency Score (CCS), une métrique d'interprétabilité qui évalue la cohérence conceptuelle des têtes d'attention, révélant leur rôle crucial dans la performance et la compréhension des concepts, notamment en détection hors domaine et raisonnement vidéo-langue. |
2025-03-14 | Limits of KV Cache Compression for Tensor Attention based Autoregressive Transformers | Les chercheurs explorent les limites de la complexité spatiale des mécanismes d'attention tensorielle dans les transformers, proposant une approche théorique qui pourrait influencer le développement d'architectures plus efficaces en mémoire. |
2025-03-14 | Don't Take Things Out of Context: Attention Intervention for Enhancing Chain-of-Thought Reasoning in Large Language Models | Les chercheurs ont identifié comment certains tokens perturbent le raisonnement des modèles de langage en concentrant leur attention de manière erronée, et proposent une méthode d'intervention sur l'attention (FAI) pour corriger cet effet, avec une amélioration notable des performances. |
2025-03-14 | Towards Extreme Pruning of LLMs with Plug-and-Play Mixed Sparsity | Cet article propose une nouvelle méthode de pruning, appelée Mixed Sparsity Pruning, qui optimise les niveaux de sparsité des couches des modèles de langage avec efficience et performance, surpassant les méthodes existantes même à des ratios de pruning élevés. |
2025-03-14 | Palette of Language Models: A Solver for Controlled Text Generation | Les chercheurs proposent une nouvelle stratégie de combinaison pour le contrôle multi-attribut d'un modèle de langage, inspirée par la Loi de la probabilité totale et la minimisation de l'information mutuelle conditionnelle, qui améliore la cohérence des résultats générés. |
2025-03-14 | FastVID: Dynamic Density Pruning for Fast Video Large Language Models | Les chercheurs ont proposé FastVID, une méthode innovante de "pruning" dynamique des tokens vidéo pour optimiser l'IA générative en vidéo tout en réduisant considérablement les coûts d'inférence, atteignant une performance de pointe en préservant la structure temporelle et visuelle. |
2025-03-14 | Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering | Cet article explore l'application de l'apprentissage par renforcement aux tâches de réponse audio, avec la méthode GRPO atteignant une précision de 64.5% sur le benchmark MMAU Test-mini, bien que les modèles audio-linguistiques ne parviennent pas encore à égaler les capacités humaines de raisonnement. |
2025-03-14 | LLaVA-MLB: Mitigating and Leveraging Attention Bias for Training-Free Video LLMs | La recherche propose une méthode en deux étapes pour optimiser l'utilisation de modèles de langage d'images préentraînés pour l'analyse vidéo, en atténuant les biais d'attention grâce à une nouvelle technique de poolage et une utilisation efficace de la structure spatiotemporelle, augmentant la compréhension vidéo sans nécessiter un nouvel entraînement. |
2025-03-14 | Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty? | Les modèles de raisonnement large, tels qu'OpenAI's o3-mini et DeepSeek R1, montrent une baisse significative de performance sur les tests analogiques non verbaux complexes, alors que le modèle neuro-symbolique ARLC maintient une robustesse notable, illustrant les défis des incertitudes perceptuelles dans le raisonnement analogique. |
2025-03-14 | GKG-LLM: A Unified Framework for Generalized Knowledge Graph Construction | Les chercheurs proposent un cadre unifié pour la construction de graphes de connaissances généralisés, en intégrant des graphes de connaissances, d'événements et de sens commun, et démontrent que leur approche améliore significativement la création de tous ces types de graphes. |
2025-03-14 | Exploring the Potential of Large Multimodal Models as Effective Alternatives for Pronunciation Assessment | Cet article examine l'efficacité du modèle GPT-4o dans l'évaluation de la prononciation en utilisant des modèles multimodaux larges, en comparant ses résultats de scoring avec des scores manuels et en évaluant la qualité du feedback généré. |
2025-03-14 | LLMPerf: GPU Performance Modeling meets Large Language Models | Des chercheurs explorent l'utilisation des grands modèles de langage (LLM) pour estimer les performances des programmes OpenCL, révélant un potentiel prometteur tout en affrontant des défis de précision significatifs. |
2025-03-14 | High-Dimensional Interlingual Representations of Large Language Models | Une recherche démontre que les modèles de langage multilingues ne développent pas de façon consistante des alignements interlinguaux ; l'étude propose une nouvelle méthode et un score pour évaluer et améliorer ces alignements cruciaux pour l'apprentissage multilingue scalable. |
2025-03-14 | BriLLM: Brain-inspired Large Language Model | Les chercheurs ont développé BriLLM, un modèle de langage inspiré du cerveau qui offre une interprétabilité complète grâce à son réseau de nœuds et propose un support multi-modal semblable aux mécanismes cognitifs humains. |
2025-03-14 | GNNs as Predictors of Agentic Workflow Performances | Les chercheurs proposent d'utiliser les Graph Neural Networks (GNN) pour prédire l'efficacité des workflows agentiques liés aux LLM, en optimisant les processus sans recours répété aux modèles de langage, via la plateforme FLORA-Bench. |
2025-03-14 | Are formal and functional linguistic mechanisms dissociated? | Les modèles de langage actuels montrent une séparation entre les mécanismes linguistiques formels et fonctionnels, mais l'unification des circuits formels reste insaisissable, malgré une potentialité de mécanismes partagés entre les tâches formelles. |
2025-03-14 | Unlocking General Long Chain-of-Thought Reasoning Capabilities of Large Language Models via Representation Engineering | Cet article explore la capacité des modèles de langage à long raisonnement en chaîne (long CoT) et propose une méthode novatrice, GLoRE, pour améliorer cette compétence de façon généralisée, tout en soulignant l'importance des représentations spécifiques au domaine pour un transfert efficace. |
2025-03-14 | MMS-LLaMA: Efficient LLM-based Audio-Visual Speech Recognition with Minimal Multimodal Speech Tokens | Les chercheurs introduisent un cadre LLM multimodal avancé pour la reconnaissance audio-visuelle de la parole, optimisant l'utilisation des jetons et améliorant la performance, tout en réduisant les coûts computationnels de 35,7% grâce à une stratégie de fusion et allocation dynamique des jetons. |
2025-03-14 | Safe-VAR: Safe Visual Autoregressive Model for Text-to-Image Generative Watermarking | Dans cet article, les chercheurs présentent Safe-VAR, un cadre innovant de tatouage invisible conçu pour les modèles autoregressifs de génération de texte en image, optimisant la qualité visuelle et la robustesse des tatouages tout en surmontant les limitations des méthodes existantes pour les modèles de diffusion. |
2025-03-14 | AIstorian lets AI be a historian: A KG-powered multi-agent system for accurate biography generation | Huawei présente AIstorian, un système novateur pour la génération de biographies historiques, intégrant un graphe de connaissances et des agents anti-hallucinations, améliorant considérablement la précision factuelle et réduisant les hallucinations grâce à un apprentissage optimisé. |
2025-03-14 | Cornstarch: Distributed Multimodal Training Must Be Multimodality-Aware | Des chercheurs ont développé Cornstarch, un cadre de formation distribué pour les modèles de langage multimodal, qui optimise l'entraînement en intégrant parallélisme modulaire et spécifique à ces modèles, surpassant les solutions actuelles en efficacité. |
2025-03-14 | Modeling Subjectivity in Cognitive Appraisal with Language Models | Les chercheurs explorent le rôle de la subjectivité dans les modèles linguistiques, soulignant l'importance des traits de personnalité et des données démographiques pour améliorer leur capacité à mesurer des préférences humaines, tout en offrant des perspectives pour le développement futur de l'IA en psychologie cognitive. |
2025-03-14 | Empowering Time Series Analysis with Synthetic Data: A Survey and Outlook in the Era of Foundation Models | Cet article analyse l'utilisation de données synthétiques pour améliorer les modèles de séries temporelles basés sur l'IA, offrant une solution aux contraintes de données en pré-entraînement et en évaluation, tout en explorant les directions futures de recherche. |
2025-03-14 | D3: Diversity, Difficulty, and Dependability-Aware Data Selection for Sample-Efficient LLM Instruction Tuning | L'article propose une méthode innovante, D3, pour sélectionner des sous-ensembles de données précieux, basée sur la diversité, la difficulté et la fiabilité, afin d'améliorer l'affinement des instructions des grands modèles de langage, démontrant l'efficacité avec seulement 10 % des données d'origine. |
2025-03-14 | A Review of DeepSeek Models' Key Innovative Techniques | L'article présente DeepSeek-V3 et DeepSeek-R1, deux modèles de langage à grande échelle open-source, qui rivalisent avec les performances des modèles propriétaires d'OpenAI et Anthropic tout en étant plus efficaces en termes de coûts d'entraînement, grâce à leurs innovations techniques avancées et une optimisation des architectures existantes. |
2025-03-14 | V-STaR: Benchmarking Video-LLMs on Video Spatio-Temporal Reasoning | Les chercheurs ont développé V-STaR, un benchmark évaluant les capacités des Video-LLMs en matière de raisonnement spatio-temporel, révélant des lacunes significatives par rapport à la logique humaine de compréhension des vidéos. |
2025-03-14 | HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models | L'article présente HiTVideo, une nouvelle approche de génération de texte vers vidéo utilisant des tokenizers hiérarchiques pour réduire la redondance et améliorer la qualité de reconstruction tout en augmentant l'efficacité de compression des séquences vidéo jusqu'à 70 %, offrant ainsi une solution prometteuse pour les défis actuels dans ce domaine. |
2025-03-14 | VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity | Les chercheurs présentent VERIFY, un benchmark conçu pour évaluer rigoureusement les capacités de raisonnement visuel des modèles multimodaux, révélant ainsi d'importantes limitations et appelant à une approche équilibrée entre perception et raisonnement. |
2025-03-14 | Broaden your SCOPE! Efficient Multi-turn Conversation Planning for LLMs using Semantic Space | L'article présente une approche innovante nommée SCOPE, qui optimise la planification des conversations dans l'espace sémantique, permettant ainsi une sélection rapide et efficace des réponses des modèles de langage, surpassant les méthodes de simulation traditionnelles. |
2025-03-14 | ASMA-Tune: Unlocking LLMs' Assembly Code Comprehension via Structural-Semantic Instruction Tuning | Les chercheurs introduisent ASMA-Tune, un cadre d'instruction-tuning structuro-sémantique, qui améliore la compréhension du code assembleur en surpassant les méthodes actuelles grâce à une synergie entre architectures encodeur et modèles de langage de décodage. Leur modèle et données sont disponibles publiquement. |
2025-03-13 | UVE: Are MLLMs Unified Evaluators for AI-Generated Videos? | Cet article explore l'utilisation de modèles de langue multimodaux (MLLMs) pour évaluer les vidéos générées par l'IA, en proposant un benchmark, UVE-Bench, qui montre le potentiel de ces modèles à surpasser les méthodes d'évaluation spécialisées existantes tout en offrant des pistes pour améliorer leur performance. |
2025-03-13 | Exploring Mutual Empowerment Between Wireless Networks and RL-based LLMs: A Survey | Cet article explore la synergie entre les grands modèles de langage basés sur l'apprentissage par renforcement et les réseaux sans fil, soulignant comment cette interaction pourrait révolutionner l'intelligence et l'efficacité des systèmes de communication futurs. |
2025-03-13 | Modeling Thousands of Human Annotators for Generalizable Text-to-Image Person Re-identification | Les chercheurs introduisent une approche de modélisation d'annotateurs humains pour améliorer la diversité des descriptions générées par les modèles multi-modaux, augmentant ainsi la capacité de généralisation des modèles de re-identification de personnes basés sur texte-image. |
2025-03-13 | From Equations to Insights: Unraveling Symbolic Structures in PDEs with LLMs | Les chercheurs proposent d'utiliser des grands modèles de langage pour découvrir des relations symboliques dans les équations différentielles partielles, améliorant ainsi l'efficacité et l'exactitude des méthodes de résolution de ces équations. |
2025-03-13 | TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs | Les chercheurs ont développé un jeu de données et une nouvelle approche de calibrage pour améliorer la compréhension temporelle des modèles de langage vidéo, tout en évitant les annotations coûteuses, et ont créé un benchmark pour une évaluation plus précise. |
2025-03-13 | How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game | L'article introduit un benchmark novateur, MM-Escape, visant à évaluer les capacités de raisonnement multimodal des modèles de langage, révélant que leurs performances chutent radicalement avec la complexité des tâches, tout en soulignant les modes d'échec distincts et les limites à améliorer dans l'exploration spatiale et l'utilisation des objets. |
2025-03-13 | Enhancing Multi-Agent Systems via Reinforcement Learning with LLM-based Planner and Graph-based Policy | Des chercheurs ont proposé le LLM-based Graph Collaboration MARL, une nouvelle approche intégrant les modèles de langage et l'apprentissage par renforcement multi-agents pour optimiser la coordination des tâches complexes, avec des résultats prometteurs démontrés dans des environnements simulés. |
2025-03-13 | SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation | Un nouveau cadre zéro-shot pour la navigation en environnements 3D intègre un modèle amélioré de prédiction de waypoints et un modèle de langage multimodal, améliorant ainsi la qualité des waypoints, la planification adaptative et le raisonnement historique pour des performances robustes et compétitives sans supervision. |
2025-03-13 | Information Density Principle for MLLM Benchmarks | Cet article propose le principe de la densité d'information pour évaluer les benchmarks des grands modèles linguistiques multimodaux (MLLMs), analysant les dimensions de la fausseté, de la difficulté, de la redondance et de la diversité afin d'améliorer leur fiabilité et leur utilité dans le développement de ces technologies. |
2025-03-13 | Why Does Your CoT Prompt (Not) Work? Theoretical Analysis of Prompt Space Complexity, its Interaction with Answer Space During CoT Reasoning with LLMs: A Recurrent Perspective | L'étude analyse les limitations des modèles de langage dans les tâches de raisonnement complexe, montrant que des invites spécifiques aux tâches surpassent les stratégies universelles grâce à une guidance humaine réfléchie. |
2025-03-13 | Cognitive-Mental-LLM: Leveraging Reasoning in Large Language Models for Mental Health Prediction via Online Text | L'étude explore comment les techniques de raisonnement améliorent les performances des modèles de langage pour classifier les textes liés à la santé mentale, révélant des gains significatifs sur certains ensembles de données, tout en mettant en lumière des défis de variabilité et d'interprétabilité du modèle. |
2025-03-13 | StepMathAgent: A Step-Wise Agent for Evaluating Mathematical Processes through Tree-of-Error | Des chercheurs ont développé StepMathAgent, un agent d'évaluation des processus mathématiques qui améliore l'analyse des grandes langues modèles en évaluant chaque étape de résolution, surpassant ainsi les méthodes existantes grâce à une approche plus interprétable et humaine via le benchmark StepMathBench. |
2025-03-13 | Gumiho: A Hybrid Architecture to Prioritize Early Tokens in Speculative Decoding | Les chercheurs introduisent Gumiho, un modèle hybride combinant des têtes en série et en parallèle pour améliorer l'efficacité et la précision de la génération de tokens dans les modèles de langage auto-régressifs, optimisant ainsi les performances par rapport aux méthodes existantes. |
2025-03-13 | Retrieval-Augmented Generation with Hierarchical Knowledge | Dans cet article, les chercheurs présentent HiRAG, une nouvelle méthode de récupération augmentée par génération utilisant la connaissance hiérarchique pour améliorer la performance des modèles de langage, surpassant les méthodes existantes. |
2025-03-13 | "Well, Keep Thinking": Enhancing LLM Reasoning with Adaptive Injection Decoding | Des chercheurs ont développé une stratégie de décodage innovante qui améliore les capacités de raisonnement des grands modèles de langage (LLM) sans nécessiter de prompts explicites, en injectant une phrase désignée pour éviter la conclusion prématurée des processus de raisonnement. |
2025-03-13 | LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents | LVAgent propose une approche innovante pour améliorer la compréhension des vidéos longues grâce à une collaboration dynamique entre des modèles de langage multimodal (MLLM), surpassant les performances des modèles existants et atteignant une précision de 80% sur des tâches de compréhension vidéo. |
2025-03-13 | Adaptive Inner Speech-Text Alignment for LLM-based Speech Translation | Une nouvelle méthode, AI-STA, améliore la traduction vocale en alignant explicitement les représentations de la parole et du texte dans les modèles de langage étendus, surpassant les approches existantes en performance. |
2025-03-13 | Efficient Federated Fine-Tuning of Large Language Models with Layer Dropout | DropPEFT est un cadre innovant de fine-tuning fédéré utilisant un abandon aléatoire des couches de transformateur, optimisant ainsi la charge computationnelle et la mémoire pour les LLMs, avec une amélioration significative de la vitesse de convergence et l'efficacité de la mémoire. |
2025-03-13 | Numerical Error Analysis of Large Language Models | L'article analyse l'impact des erreurs d'arrondi dans le fonctionnement des modèles de langue basés sur l'architecture des transformeurs et propose des lignes directrices pour choisir les hyperparamètres qui réduisent ces erreurs, améliorant ainsi la stabilité du processus d'inférence. |
2025-03-13 | An Expanded Massive Multilingual Dataset for High-Performance Language Technologies | Des chercheurs ont développé HPLT v2, un ensemble de corpus multilingues et parallèles de haute qualité pour entraîner des modèles linguistiques, couvrant 193 langues avec 8T tokens et 51 langues avec 380M de paires de phrases, et ont évalué sa performance en traduction automatique. |
2025-03-13 | VisualPRM: An Effective Process Reward Model for Multimodal Reasoning | VisualPRM, un modèle avancé de processus de récompense multimodal avec 8 milliards de paramètres, améliore significativement les capacités de raisonnement des modèles de langage multimodal existants, surpassant les modèles de récompense de résultats et l'auto-consistance grâce à des évaluations BoN. |
2025-03-13 | Capturing Semantic Flow of ML-based Systems | Les chercheurs introduisent le concept de "flux sémantique" pour analyser le comportement interne des systèmes basés sur l'apprentissage automatique, comme les réseaux neuronaux profonds et les modèles de langage, en adaptant des techniques traditionnelles d'analyse dynamique à travers des graphes de flux sémantique. |
2025-03-13 | IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification | L'article présente IDEA, un nouveau cadre d'apprentissage qui améliore la recherche d'objets spécifiques en intégrant des informations multimodales, y compris des caractéristiques textuelles, pour générer des représentations plus robustes dans des scénarios complexes. |
2025-03-13 | Collaborative Speculative Inference for Efficient LLM Inference Serving | CoSine, un système d'inférence spéculatif avancé, améliore la collaboration entre nœuds pour optimiser la génération et la vérification des brouillons, diminuant ainsi la latence de 23.2% et augmentant le débit de 32.5% par rapport aux méthodes de référence. |
2025-03-13 | G-Boost: Boosting Private SLMs with General LLMs | Un article propose le cadre G-Boost, où un Small Language Model privé collabore de manière adaptative avec un Large Language Model général pour améliorer ses performances, démontrées par des expériences concluantes. |
2025-03-13 | SPPO:Efficient Long-sequence LLM Training via Adaptive Sequence Pipeline Parallel Offloading | Les chercheurs proposent une nouvelle méthode, SPPO, pour réduire les exigences en mémoire et en ressources de calcul lors de l'entraînement de grands modèles linguistiques sur de longues séquences, améliorant ainsi l'efficacité de formation jusqu'à 3,38 fois par rapport aux solutions existantes. |
2025-03-13 | CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance | L'article présente CINEMA, un cadre novateur pour la génération de vidéos personnalisées à plusieurs sujets, qui utilise un modèle de langage multimodal pour améliorer la cohérence et réduire l'ambiguïté sans nécessiter de correspondances explicites entre images et texte. |
2025-03-13 | RealGeneral: Unifying Visual Generation via Temporal In-Context Learning with Video Models | Les chercheurs présentent RealGeneral, un cadre unifié pour la génération d'images utilisant des modèles vidéo, qui améliore la similarité de sujets et la qualité d'image dans des tâches visuelles distinctes grâce à une approche de prédiction de cadre conditionnelle. |
2025-03-13 | Understanding the Logical Capabilities of Large Language Models via Out-of-Context Representation Learning | Des chercheurs explorent comment les grands modèles de langage (LLM) gèrent les relations binaires en mathématiques, proposant un apprentissage des représentations hors contexte pour mieux évaluer leurs capacités logiques, et ainsi contourner les biais linguistiques présents dans les modèles existants. |
2025-03-13 | 4D LangSplat: 4D Language Gaussian Splatting via Multimodal Large Language Models | Les chercheurs ont présenté 4D LangSplat, un modèle qui intègre des champs de langage en quatre dimensions pour permettre des requêtes ouvertes sensibles au temps dans des scènes dynamiques, utilisant des objets et des vidéos, en surmontant les limitations de CLIP pour fournir des résultats précis et efficaces. |
2025-03-13 | DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code Generation | DynaCode propose un benchmark dynamique et sensible à la complexité des LLMs, augmentant la diversité des problèmes de code et révélant leur capacité à gérer des structures imbriquées, tout en soulignant une baisse notable de performance par rapport aux benchmarks statiques. |
2025-03-13 | MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation | L'article présente MMLU-ProX, un nouveau benchmark multilingue qui évalue les modèles de langage actuels en 13 langues, révélant une diminution de la performance dans les langues à faible ressources et soulignant les limites persistantes des capacités multilingues malgré les avancées récentes. |
2025-03-13 | TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models | Les chercheurs introduisent TokenCarve, un cadre novateur sans entraînement pour compresser les tokens visuels des modèles de langage multimodal, préservant ainsi la performance tout en réduisant considérablement les coûts de calcul. |
2025-03-13 | SySLLM: Generating Synthesized Policy Summaries for Reinforcement Learning Agents Using Large Language Models | Les chercheurs proposent SySLLM, une méthode innovante utilisant des modèles de langage pour synthétiser des résumés textuels de politiques générées par apprentissage par renforcement, surpassant les méthodes démonstratives dans la compréhension et la fiabilité des comportements d'agents. |
2025-03-13 | Conformal Prediction Sets for Deep Generative Models via Reduction to Conformal Regression | L'article présente un algorithme simple et efficace, nommé Generative Prediction Sets (GPS), qui génère des ensembles de prédictions valides et optimaux à partir de modèles génératifs profonds, en garantissant des résultats conformes grâce à une approche de régression conforme. |
2025-03-13 | Probing LLMs for Multilingual Discourse Generalization Through a Unified Label Set | Les chercheurs examinent si les grands modèles de langage (LLMs) possèdent des connaissances discursives généralisables à travers les langues et les cadres, en proposant un ensemble unifié d'étiquettes de relation discursive et en testant 23 LLMs pour évaluer leur capacité à généraliser ces informations. Les résultats indiquent que les LLMs, en particulier ceux formés sur des corpus multilingues, réussissent cette généralisation, surtout dans les couches intermédiaires. |
2025-03-13 | PiSA: A Self-Augmented Data Engine and Training Strategy for 3D Understanding with Large Models | Les chercheurs ont développé PiSA-Engine, un cadre novateur qui intègre des connaissances 2D et 3D pour améliorer les modèles génératifs à grande échelle, en créant des ensembles de données en 3D riches en sémantique spatiale. Leur modèle, PointLLM-PiSA, montre des améliorations significatives en évaluation sur le nouveau benchmark PiSA-Bench. |
2025-03-13 | Unveiling the Mathematical Reasoning in DeepSeek Models: A Comparative Study of Large Language Models | Cet article présente une étude comparative des capacités de raisonnement mathématique des modèles DeepSeek par rapport à cinq modèles de grande envergure, révélant que DeepSeek-R1 surpasse ses pairs en précision, tout en identifiant des axes de développement futurs pour les LLMs. |
2025-03-13 | Unlock the Power of Unlabeled Data in Language Driving Model | Les chercheurs proposent une méthode semi-supervisée qui utilise des données non annotées pour améliorer les modèles de conduite autonome VisionLLMs, surpassant les méthodes d’état de l’art avec seulement 5 % de données annotées, et démontrant une augmentation de performance notable en intégrant des données non annotées. |
2025-03-13 | TruthPrInt: Mitigating LVLM Object Hallucination Via Latent Truthful-Guided Pre-Intervention | Les chercheurs explorent comment les états internes des grands modèles vision-langage peuvent servir d'indicateurs précis des hallucinations d'objets, proposant une méthode innovante, TruthPrInt, pour guider les interventions en temps réel et améliorer la détection de ces hallucinations à travers différents modèles et données. |
2025-03-13 | CoSTA$\ast$: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing | Les chercheurs proposent "CoSTA*", une approche en trois étapes combinant modèles de langage et recherche de graphes pour optimiser les séquences d'outils d'édition d'image, surpassant les modèles actuels en coûts et qualité selon un nouveau benchmark. |
2025-03-13 | R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization | Les chercheurs introduisent R1-Onevision, un modèle de raisonnement multimodal qui transforme les images en représentations textuelles pour faciliter l'analyse visuelle et textuelle intégrée, surpassant les performances des modèles existants sur des tâches complexes. |
2025-03-13 | Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models | Dans cet article, les chercheurs introduisent CS-ReFT, une méthode innovante de fine-tuning qui réduit les interférences entre les tâches dans les modèles de langage large. En se concentrant sur les transformations de sous-espaces orthonormaux, CS-ReFT améliore le suivi des instructions multi-tâches tout en minimisant l'utilisation des paramètres du modèle. |
2025-03-13 | From TOWER to SPIRE: Adding the Speech Modality to a Text-Only LLM | Les chercheurs ont étendu le modèle multilingue TOWER aux capacités de traitement de la parole, créant ainsi SPIRE, qui peut transcrire et traduire des discours en anglais tout en conservant sa performance de traduction d'origine. Le code et les modèles sont disponibles en open-source pour la communauté. |
2025-03-13 | UniGoal: Towards Universal Zero-shot Goal-oriented Navigation | L'article présente un cadre novateur pour la navigation universelle à zéro-shot, en utilisant une représentation uniforme de graphes pour unifier différents objectifs, ce qui permet un raisonnement explicite basé sur les grands modèles de langage et offre une performance de pointe dépassant les méthodes traditionnelles dans plusieurs tâches de navigation. |
2025-03-13 | GoT: Unleashing Reasoning Capability of Multimodal Large Language Model for Visual Generation and Editing | Les chercheurs ont développé "Generation Chain-of-Thought" (GoT), une nouvelle approche de génération et d'édition d'images, qui intègre un processus de raisonnement explicite pour aligner les images produites sur l'intention humaine, en dépassant les méthodes basées uniquement sur des instructions textuelles. |
2025-03-13 | ZeroMerge: Parameter-Free KV Cache Compression for Memory-Efficient Long-Context LLMs | ZeroMerge est un cadre de compression dynamique sans réglage préalable qui optimise la gestion des caches pour les grands modèles linguistiques, améliorant l'efficacité mémoire et la qualité de génération sans perte irréversible d'information ni besoin de réentraîner les modèles. |
2025-03-13 | From Understanding to Excelling: Template-Free Algorithm Design through Structural-Functional Co-Evolution | Un cadre d'optimisation et génération d'algorithmes basé sur des modèles de langage étendu (LLM) surpasse les méthodes traditionnelles en s'appuyant sur une compréhension sémantique profonde et une co-évolution bidimensionnelle pour optimiser à la fois la fonctionnalité et la structure, démontrant une performance supérieure et un potentiel d'innovation accrue. |
2025-03-13 | TacticExpert: Spatial-Temporal Graph Language Model for Basketball Tactics | Les chercheurs ont développé TacticExpert, un modèle intégré pour la modélisation tactique fine en basketball, utilisant un Graph Transformer novateur et des techniques d'apprentissage contrastif pour améliorer l'efficacité et l'adaptabilité aux tâches non supervisées. |
2025-03-13 | RankPO: Preference Optimization for Job-Talent Matching | Un cadre d'entraînement en deux étapes pour les modèles de langage est proposé, alliant apprentissage contrastif et une nouvelle méthode de fine-tuning, Rank Preference Optimization, pour améliorer l'adéquation entre descriptions de poste et profils candidats en équilibrant règles contextuelles et compréhension textuelle. |
2025-03-13 | Samoyeds: Accelerating MoE Models with Structured Sparsity Leveraging Sparse Tensor Cores | L'article présente Samoyeds, un système innovant pour accélérer les modèles de langage Mixture-of-Experts, qui applique la parcimonie aux activations et aux paramètres afin de surmonter les défis de calcul et de mémoire, augmentant ainsi l'efficacité et la précision des modèles. |
2025-03-13 | Vulnerability Detection: From Formal Verification to Large Language Models and Hybrid Approaches: A Comprehensive Overview | Cet article examine les méthodes de vérification logicielle, à travers l'analyse des méthodes formelles classiques, l'usage des modèles de langage (LLMs), et des techniques hybrides, soulignant le potentiel des systèmes hybrides pour améliorer l'efficacité et l'évolutivité des tests logiciels. |
2025-03-13 | Thinking Machines: A Survey of LLM based Reasoning Strategies | L'article examine l'écart entre les compétences linguistiques et les capacités de raisonnement des modèles de langage étendu (LLMs) et propose des techniques pour renforcer le raisonnement, crucial pour l'utilisation responsable et efficace de l'IA dans des domaines critiques. |
2025-03-13 | Who Relies More on World Knowledge and Bias for Syntactic Ambiguity Resolution: Humans or LLMs? | Cette recherche montre que les modèles de langage réagissent différemment des humains face aux ambiguïtés dans les clauses relatives et privilégient des biais de connaissance mondiale plutôt que les variations syntaxiques dans six langues, révélant un besoin de formations plus nuancées pour améliorer leur compréhension linguistique complexe. |
2025-03-13 | Teamwork makes the dream work: LLMs-Based Agents for GitHub README.MD Summarization | L'article présente Metagente, un cadre multi-agents basé sur des modèles de langage massif qui optimise les agents spécialisés pour améliorer la précision des tâches en ingénierie logicielle, surpassant significativement les méthodes conventionnelles telles que GitSum et LLaMA-2. |
2025-03-13 | SCE: Scalable Consistency Ensembles Make Blackbox Large Language Model Generation More Reliable | Cet article présente Scalable Consistency Ensemble (SCE), un cadre efficace d'agrégation pour modèle linguistique, qui utilise les mécanismes SCE-CHECK et SCE-FUSION, et la technique YOPO pour réduire la complexité informatique, offrant ainsi des réponses cohérentes avec une performance améliorée et des coûts calculatoires réduits. |
2025-03-13 | Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data | Les chercheurs ont créé Chat-TS, un modèle de langage qui intègre des séries temporelles et des textes pour améliorer le raisonnement multimodal, avec de nouveaux ensembles de données pour l'évaluation et l'apprentissage, démontrant ainsi des performances de pointe. |
2025-03-13 | Memory-Efficient 3D High-Resolution Medical Image Synthesis Using CRF-Guided GANs | Les chercheurs ont développé une nouvelle architecture GAN utilisant des champs aléatoires conditionnels, permettant de générer des images médicales 3D haute résolution avec une consommation réduite de mémoire GPU, surpassant ainsi les modèles actuels selon leurs tests sur des scanners pulmonaires et IRM cérébrales. |
2025-03-13 | Learning to Inference Adaptively for Multimodal Large Language Models | AdaLLaVA est un cadre d'inférence adaptatif qui optimise dynamiquement les opérations des modèles de langage multimodal lors de l'inférence, respectant les contraintes de latence et de contenu pour améliorer l'efficacité même dans les environnements limités en ressources. |
2025-03-13 | OASST-ETC Dataset: Alignment Signals from Eye-tracking Analysis of LLM Responses | Des chercheurs ont créé OASST-ETC, un corpus novateur utilisant le suivi oculaire pour analyser comment les modèles de langage alignent leurs réponses sur les préférences humaines, révélant des modèles de lecture distincts et potentiellement utiles pour améliorer ces alignements. |
2025-03-13 | Graph-Grounded LLMs: Leveraging Graphical Function Calling to Minimize LLM Hallucinations | Les chercheurs présentent une méthode novatrice, les LLMs ancrés dans les graphes, intégrant une bibliothèque de graphes pour améliorer les performances en réduisant les hallucinations et les inexactitudes mathématiques, avec des applications prometteuses, notamment dans les secours en cas de catastrophe. |
2025-03-13 | Empirical Computation | Dans cet article, les chercheurs proposent l'idée de "computation empirique", une approche où les solutions aux problèmes informatiques sont déterminées empiriquement plutôt que formellement, remettant en question les concepts classiques de calcul. Ils explorent ses capacités et limites en vue d'établir cette approche comme un nouveau champ en ingénierie logicielle. |
2025-03-12 | I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? | Les chercheurs introduisent un nouveau modèle génératif qui démontre que les grands modèles de langage apprennent des représentations de concepts interprétables par l'homme, corroborant l'hypothèse des représentations linéaires et soulignant leur capacité à capturer des facteurs génératifs sous-jacents. |
2025-03-12 | Enhancing High-Quality Code Generation in Large Language Models with Comparative Prefix-Tuning | Les chercheurs ont développé une méthode de préfixage pour améliorer la qualité du code généré par les modèles linguistiques, réduisant le besoin de correction par les développeurs tout en préservant la précision fonctionnelle. |
2025-03-12 | DAST: Difficulty-Aware Self-Training on Large Language Models | Les chercheurs ont développé le cadre DAST pour améliorer l'entraînement des modèles de langage en ciblant les requêtes difficiles, en augmentant la quantité et la qualité des réponses générées; les essais ont prouvé son efficacité, notamment sur des tâches mathématiques. |
2025-03-12 | Teaching LLMs How to Learn with Contextual Fine-Tuning | Les chercheurs présentent une méthode de fine-tuning contextuel des modèles de langage large (LLM), utilisant des instructions pour imiter les stratégies cognitives humaines, améliorant ainsi leur capacité d'adaptation rapide à de nouveaux ensembles de données dans des domaines spécifiques comme la médecine et la finance. |
2025-03-12 | Self-Consistent Equation-guided Neural Networks for Censored Time-to-Event Data | Des chercheurs ont développé une approche innovante utilisant des réseaux antagonistes génératifs pour estimer des fonctions de survie conditionnelles sans hypothèses paramétriques, affichant des performances prometteuses tant en simulation que sur des données réelles. |
2025-03-12 | GRU: Mitigating the Trade-off between Unlearning and Retention for Large Language Models | Des chercheurs proposent le Gradient Rectified Unlearning (GRU), un cadre amélioré pour l'effacement ciblé dans les modèles linguistiques de grande taille, qui optimise les gradients pour éviter les effets secondaires sur la fonctionnalité générale tout en garantissant un respect accru des exigences de confidentialité et de droits d'auteur. |
2025-03-12 | Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding | Les chercheurs proposent Ego-ExoClip, un ensemble de données pré-entraînées pour transformer la compréhension vidéo egocentrique des IA, surpassant les modèles multimodaux existants grâce à l'apprentissage du domaine exocentrique. |
2025-03-12 | Generative Frame Sampler for Long Video Understanding | Les chercheurs introduisent le module Generative Frame Sampler (GenS), qui améliore la perception des vidéos longues dans les modèles de langage vidéo, démontrant des gains de performance significatifs sur les benchmarks grâce à un dataset spécialisé, GenS-Video-150K. |
2025-03-12 | FaVChat: Unlocking Fine-Grained Facail Video Understanding with Multimodal Large Language Models | Les chercheurs proposent FaVChat, un modèle multimodal inédit pour la compréhension avancée des visages dans les vidéos, utilisant une grande base de données annotée et une architecture hybride pour améliorer la précision des interprétations faciales en vidéo. |
2025-03-12 | Token Weighting for Long-Range Language Modeling | L'article explore comment des schémas de pondération novateurs pour les tokens dans les modèles de langage peuvent améliorer la compréhension des contextes longs, en montrant que des poids de perte non uniformes augmentent les performances des LLMs dans ce domaine. |
2025-03-12 | Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model | Les chercheurs proposent l'approche Audio-Video Vector Alignment (AVVA) qui améliore la précision du modèle de formation multimodal en alignant les données audiovisuelles par une curation optimale via un Large Language Model, démontrant des gains substantiels de précision avec moins de données. |
2025-03-12 | Why LLMs Cannot Think and How to Fix It | Les modèles de langage actuels ne peuvent pas développer de véritables "pensées" en raison de leurs contraintes architecturales. Les chercheurs proposent des solutions architecturales pour y remédier et discutent des implications de ces modifications. |
2025-03-12 | COLA: A Scalable Multi-Agent Framework For Windows UI Task Automation | Les chercheurs ont créé le cadre \textit{COLA} pour automatiser les opérations d'interface utilisateur Windows, utilisant des agents dynamiques et une mémorisation évolutive pour pallier les limitations des architectures statiques et des processus peu évolutifs, tout en permettant des interventions humaines. |
2025-03-12 | Crowdsourced Homophily Ties Based Graph Annotation Via Large Language Model | Des chercheurs introduisent CSA-LLM, une méthode innovante de crowdsourcing combinée à de grands modèles de langage pour améliorer l'annotation de graphes, augmentant ainsi la précision des réseaux de neurones de graphes. |
2025-03-12 | Priority-Aware Preemptive Scheduling for Mixed-Priority Workloads in MoE Inference | Les chercheurs ont développé QLLM, un système d'inférence innovant pour optimiser la gestion des modèles de langage MoE en centres de données, améliorant considérablement les performances des tâches sensibles à la latence grâce à un ordonnanceur qui ajuste les priorités des tâches en temps réel. |
2025-03-12 | xVLM2Vec: Adapting LVLM-based embedding models to multilinguality using Self-Knowledge Distillation | Les chercheurs proposent une méthode d'adaptation des grands modèles vision-langage pour améliorer l'extraction de représentations multilingues et multimodales, et introduisent un benchmark pour évaluer leur efficacité. |
2025-03-12 | A Survey on Enhancing Causal Reasoning Ability of Large Language Models | Un article de synthèse examine comment améliorer la capacité de raisonnement causal des modèles linguistiques de grande taille, en présentant une nouvelle taxonomie pour classer les méthodes existantes et en indiquant les directions futures de recherche dans ce domaine émergent. |
2025-03-12 | Towards Next-Generation Recommender Systems: A Benchmark for Personalized Recommendation Assistant with LLMs | Les chercheurs ont développé RecBench+, un nouveau benchmark de données pour évaluer les capacités des grands modèles de langage à traiter des scénarios de recommandation complexes, révélant que ces modèles ont des capacités limitées lorsqu'il s'agit de requêtes nécessitant un raisonnement ou contenant des informations trompeuses. |
2025-03-12 | Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models | Les chercheurs développent Florenz, un modèle de vision-langage monolingue qui excelle dans des tâches de vision multilingue malgré l'entraînement sur des données dans une seule langue, en démontrant son efficacité dans la génération d'images et la traduction multimodale grâce à un pipeline innovant de données synthétiques. |
2025-03-12 | Explicit Learning and the LLM in Machine Translation | Cette étude révèle que les grands modèles de langue ont une capacité limitée à apprendre explicitement des règles grammaticales, surtout lorsque les phénomènes linguistiques deviennent complexes, nécessitant des ensembles de formation plus diversifiés et de nouvelles stratégies de réglage fin pour améliorer cette compétence. |
2025-03-12 | BAMBI: Developing Baby Language Models for Italian | L'article examine BAMBI, des modèles linguistiques réduits pour l'italien, montrant que malgré un apprentissage limité, ils rivalisent avec les grands modèles, soulignant l'importance d'approches variées comme l'intégration multimodale pour optimiser la performance. |
2025-03-12 | ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning | Des chercheurs ont développé un cadre novateur, Reinforced Meta-thinking Agents (ReMA), qui utilise l'apprentissage par renforcement multi-agent pour intégrer le méta-pensée dans les grands modèles linguistiques, améliorant significativement leurs capacités de raisonnement sur des tâches complexes. |
2025-03-12 | Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning | L'article présente Search-R1, un modèle de recherche autonome où les grands modèles de langage optimisent leurs requêtes via apprentissage par renforcement, améliorant les performances de 10 à 26% sur plusieurs ensembles de données de question-réponse par rapport aux approches existantes. |
2025-03-12 | Large Language Models for Multi-Facility Location Mechanism Design | Un nouvel outil, LLMMech, utilise les grands modèles de langage dans un cadre évolutif pour créer des mécanismes de localisation multi-facilité qui sont à la fois stratégiquement robustes, sans hyperparamètres et interprétables, surmontant ainsi les limites des modèles d'apprentissage profond. |
2025-03-12 | Towards Reasoning Era: A Survey of Long Chain-of-Thought for Reasoning Large Language Models | Cet article propose une analyse approfondie des chaînes de pensée longues (Long CoT) pour améliorer le raisonnement des modèles de langage, comparées aux chaînes courtes (Short CoT), avec l'objectif de combler les lacunes actuelles et de stimuler la recherche autour du raisonnement logique en intelligence artificielle. |
2025-03-12 | Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks | Les chercheurs ont développé "Plan-and-Act", un cadre novateur intégrant explicitement la planification dans les modèles de langage pour améliorer la génération de plans, atteignant un taux de succès de 54 % pour des tâches de planification complexes telles que la navigation web. |
2025-03-12 | Cost-Optimal Grouped-Query Attention for Long-Context LLMs | Cet article de recherche explore l'impact de la longueur de contexte et de la configuration des têtes d'attention sur les modèles de langage de grande taille, découvrant qu'un modèle plus volumineux avec moins de têtes d'attention peut améliorer la performance tout en réduisant les coûts computationnels et de mémoire lors du traitement de longues séquences. |
2025-03-12 | BIMBA: Selective-Scan Compression for Long-Range Video Question Answering | L'article présente BIMBA, un modèle d'état innovant permettant des questions-réponses vidéo sur des séquences longues, optimisant ainsi l'attention à l'information clé tout en réduisant les coûts de calcul. Des tests démontrent sa précision exceptionnelle sur plusieurs bancs d'évaluation à long terme. |
2025-03-12 | MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System | Cet article présente une méthode d'évaluation pour améliorer la qualité du découpage de texte dans les systèmes de génération augmentée par la récupération (RAG), introduisant le cadre MoC qui optimise la précision et l'efficacité en exploitant les grands modèles de langage. |
2025-03-12 | A Review on Proprietary Accelerators for Large Language Models | Cet article explore l'importance croissante des accélérateurs pour les modèles de langage de grande taille (LLM) et offre une analyse détaillée des caractéristiques matérielles et logicielles des principaux accélérateurs commerciaux, en proposant des orientations pour les futurs développements technologiques. |
2025-03-12 | LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics | Des chercheurs ont développé LLM-PS, un modèle de langage optimisé pour la prévision de séries temporelles, en intégrant des réseaux de neurones convolutionnels multi-échelles pour capturer les fluctuations et tendances, ainsi qu'un module de temps-texte pour extraire des sémantiques pertinentes, atteignant des performances de pointe dans la prévision à court et long termes. |
2025-03-12 | Týr-the-Pruner: Unlocking Accurate 50% Structural Pruning for LLMs via Global Sparsity Distribution Optimization | Týr-the-Pruner est un cadre de réduction structurelle globale pour les grands modèles de langage, améliorant l'efficacité sans compromettre les performances, en conservant 97% des capacités d'un modèle dense tout en réduisant de moitié ses paramètres. |
2025-03-12 | Have LLMs Made Active Learning Obsolete? Surveying the NLP Community | Les chercheurs examinent la pertinence actuelle de l'apprentissage actif, en comparant ses obstacles et pratiques dans la communauté NLP face aux avancées des grands modèles de langage, et concluent que l'annotation de données reste cruciale malgré des défis persistants. |
2025-03-12 | Local Look-Ahead Guidance via Verifier-in-the-Loop for Automated Theorem Proving | Des chercheurs ont conçu un système pour la démonstration automatique de théorèmes utilisant un vérificateur automatisé qui fournit un feedback à chaque étape du raisonnement, améliorant ainsi l'exactitude et l'efficacité globale du modèle. |
2025-03-12 | Attention Reveals More Than Tokens: Training-Free Long-Context Reasoning with Attention-guided Retrieval | Les chercheurs identifient les limites des grands modèles linguistiques en matière de raisonnement sur de longs textes et proposent "Attrieval", une méthode innovante sans entraînement utilisant des poids d'attention pour améliorer la récupération d'informations implicites et optimiser les performances de raisonnement. |
2025-03-12 | Generative AI for Named Entity Recognition in Low-Resource Language Nepali | Cet article examine l'application de modèles de langage avancés pour la reconnaissance d'entités nommées en népalais, en explorant différentes techniques de sollicitation pour évaluer leur efficacité et contribuer à la recherche NLP dans les langues à faible ressource. |
2025-03-12 | Information-Energy Capacity Region for SLIPT Systems over Lognormal Fading Channels: A Theoretical and Learning-Based Analysis | Cet article analyse la capacité d'information-énergie des systèmes SLIPT sur des canaux à évanouissement log-normal, mettant en lumière une distribution d'entrée optimale discrète et introduisant un cadre d'apprentissage novateur pour estimer et optimiser cette capacité via des réseaux adversariaux génératifs, avec des résultats numériques validant leur approche. |
2025-03-12 | LuciBot: Automated Robot Policy Learning from Generated Videos | Cet article propose une approche innovante utilisant des modèles de génération vidéo pour améliorer la supervision des tâches incarnées complexes en simulation, surpassant les limites des modèles de langage et de vision-langage existants en matière de perception et d'expressivité. |
2025-03-12 | What's In Your Field? Mapping Scientific Research with Knowledge Graphs and Large Language Models | Les chercheurs ont développé un système prototype qui combine la compréhension sémantique des grands modèles linguistiques (LLMs) avec des représentations structurées pour répondre à des questions précises sur la littérature scientifique, en extrayant des concepts de 30,000 articles sur des domaines variés, révélant ainsi des tendances émergentes et offrant de nouvelles façons d'explorer le savoir scientifique. |
2025-03-12 | Improving the Reusability of Conversational Search Test Collections | Les chercheurs démontrent que l'utilisation de modèles de langage comme le Llama 3.1, via un entraînement rapide, peut combler les lacunes dans les collections de tests de recherche conversationnelle, améliorant ainsi l'équité et la réutilisabilité des évaluations de nouveaux systèmes. |
2025-03-12 | Conversational Gold: Evaluating Personalized Conversational Search System using Gold Nuggets | Les chercheurs présentent une nouvelle ressource pour évaluer l'efficacité des systèmes de génération de réponses augmentées par la récupération (RAG), utilisant une évaluation par "nuggets" pour améliorer la recherche conversationnelle personnalisée. |
2025-03-12 | Zero-Shot Subject-Centric Generation for Creative Application Using Entropy Fusion | Les chercheurs ont développé une méthode innovante pour générer des images centrées sur le sujet avec une technologie de fusion basée sur l'entropie, améliorant la qualité et la précision des images générées par rapport aux modèles existants. |
2025-03-12 | TA-V2A: Textually Assisted Video-to-Audio Generation | Des chercheurs ont développé TA-V2A, un modèle qui enrichit la génération vidéo-à-audio en intégrant des caractéristiques de langage, audio et vidéo pour améliorer la représentation sémantique et l'alignement temporel, grâce à l'utilisation de modèles de diffusion et de langage. |
2025-03-11 | LLM-based Corroborating and Refuting Evidence Retrieval for Scientific Claim Verification | CIBER est une extension du cadre RAG visant à améliorer la vérification des affirmations scientifiques en identifiant des documents corroborants ou réfutants, apportant ainsi une nouvelle approche sans supervision pour analyser les modèles de langage avec des évaluations démontrant son efficacité supérieure. |
2025-03-11 | EFPC: Towards Efficient and Flexible Prompt Compression | Les chercheurs présentent EFPC, une méthode novatrice de compression de prompts qui améliore l'efficacité et la précision des modèles de langage, surpassant la méthode LLMLingua-2 sur le benchmark LongBench tout en nécessitant peu de données. |
2025-03-11 | MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models | Cet article présente MoRE, un modèle innovant de quadrupèdes alliant vision, langage et action, utilisant l'apprentissage par renforcement pour optimiser les performances sur diverses tâches en environnements réels, surpassant les références existantes et démontrant une excellente généralisation. |
2025-03-11 | A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects | L'article de recherche passe en revue plus de 200 études sur la généralisation des technologies de détection Wi-Fi et propose des solutions pour atténuer l'impact des variations environnementales, tout en explorant de nouvelles directions telles que l'intégration de modèles linguistiques étendus. |
2025-03-11 | In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents | Les chercheurs présentent le Reflective Memory Management (RMM), une nouvelle approche pour améliorer la gestion de la mémoire des modèles linguistiques larges en utilisant des réflexions prospectives et rétrospectives, ce qui améliore notablement la performance des dialogues longs. |
2025-03-11 | Learning to Search Effective Example Sequences for In-Context Learning | Des chercheurs présentent BESC, une nouvelle méthode de construction séquentielle d'exemples optimaux pour les modèles de langage large, qui améliore les capacités d'apprentissage grâce à une approche intégrée utilisant la recherche en faisceau, démontrant des résultats prometteurs sur diverses bases de données et modèles linguistiques. |
2025-03-11 | Adapting Large Language Models for Parameter-Efficient Log Anomaly Detection | Cet article explore l'adaptation d'algorithmes de fine-tuning de paramètres pour les modèles de langage dans la détection des anomalies de journaux, en utilisant LoRA et ReFT sur trois LLMs, révélant efficacité et robustesse sur des ensembles de données variés. |
2025-03-11 | Odysseus Navigates the Sirens' Song: Dynamic Focus Decoding for Factual and Diverse Open-Ended Text Generation | Cet article présente le "Dynamic Focus Decoding", une nouvelle méthode stochastique intégrable qui améliore la précision factuelle et la diversité des modèles de langage, sans nécessiter de ressources supplémentaires, en ajustant dynamiquement le focus de décodage selon les variations distributionnelles entre les couches. |
2025-03-11 | LLM4MAC: An LLM-Driven Reinforcement Learning Framework for MAC Protocol Emergence | L'article présente LLM4MAC, un cadre innovant exploitant les modèles de langage de grande taille dans un paradigme d'apprentissage par renforcement pour optimiser les protocoles d'accès au média dans les systèmes 6G, en améliorant le débit et la généralisation via un jeu de Markov et une optimisation de politique proximale. |
2025-03-11 | Large Scale Multi-Task Bayesian Optimization with Large Language Models | L'article présente une méthode novatrice utilisant les grands modèles de langage (LLM) pour améliorer l'efficacité de l'optimisation multitâche en s'inspirant des trajectoires antérieures, démontrant d'excellentes performances dans la conception de peptides antimicrobiens et l'optimisation de requêtes de bases de données. |
2025-03-11 | Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method | Des chercheurs ont optimisé l'utilisation des modèles vision-language pour détecter des objets dans des images de télédétection, en convertissant les annotations traditionnelles en instructions en langage naturel, démontrant que cette approche fonctionne efficacement sans modifier l'architecture du modèle. |
2025-03-11 | RigoChat 2: an adapted language model to Spanish using a bounded dataset and reduced hardware | Des chercheurs ont réussi à optimiser un modèle de langage existant, RigoChat 2, pour des tâches en espagnol, en utilisant moins de ressources tout en conservant des performances élevées, démontrant ainsi qu'une approche ciblée peut améliorer efficacement les modèles d'IA générative. |
2025-03-11 | A Cascading Cooperative Multi-agent Framework for On-ramp Merging Control Integrating Large Language Models | Les chercheurs introduisent le cadre Cascade Cooperative Multi-agent (CCMA), combinant apprentissage par renforcement et modèles de langage pour améliorer la coordination multi-agents et l'optimisation dans des scénarios de conduite complexes, surpassant les méthodes existantes. |
2025-03-11 | Route Sparse Autoencoder to Interpret Large Language Models | La recherche introduit RouteSAE, un framework novateur qui utilise un mécanisme de routage pour améliorer l'interprétabilité des modèles de langage, capturant efficacement les activations sur plusieurs couches et augmentant de 22,5% les fonctionnalités extraites par rapport aux autoencodeurs épars traditionnels. |
2025-03-11 | LangTime: A Language-Guided Unified Model for Time Series Forecasting with Proximal Policy Optimization | Les chercheurs ont développé LangTime, un modèle unifié pour la prévision des séries temporelles, qui utilise des prompts de compréhension temporelle et un algorithme de réglage fin basé sur l'apprentissage par renforcement pour surmonter les défis d'alignement croisé et d'accumulation d'erreurs, améliorant ainsi significativement la précision de la prévision. |
2025-03-11 | Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework | L'article présente SRICE, un cadre de raisonnement multimodal sans entraînement qui améliore la précision des modèles linguistiques en intégrant des modèles de vision externes avec une quantification de l'incertitude, surpassant les méthodes basées sur un entraînement coûteux. |
2025-03-11 | Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference | L'étude explore les inefficiences liées à l'inférence des grands modèles de langage, identifiant la saturation de la bande passante mémoire comme le principal problème. Les chercheurs proposent un outil d'optimisation de l'allocation mémoire pour améliorer la performance, bouleversant ainsi les idées reçues sur l'utilisation des ressources GPU. |
2025-03-11 | OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning | Dans cette étude, les chercheurs montrent que OpenRAG, un cadre optimisé de génération augmentée par récupération, améliore significativement les performances des systèmes de récupération grâce à un ajustement end-to-end du récupérateur, surpassant les modèles existants tout en offrant une solution rentable pour les systèmes RAG. |
2025-03-11 | TokenSim: Enabling Hardware and Software Exploration for Large Language Model Inference Systems | Le travail des chercheurs présente TokenSim, un système d'exploration de matériel et logiciel optimisé pour l'inférence des modèles de langage à grande échelle, capable de réduire l'erreur de performance à moins de 1% avec des solutions extensibles de gestion de la mémoire et de programmation. |
2025-03-11 | KAP: MLLM-assisted OCR Text Enhancement for Hybrid Retrieval in Chinese Non-Narrative Documents | Les chercheurs introduisent Knowledge-Aware Preprocessing (KAP), un cadre de prétraitement en deux étapes pour améliorer la précision de la recherche dans les systèmes de récupération hybride en traitant les documents non narratifs en chinois traditionnel. |
2025-03-11 | FastCache: Optimizing Multimodal LLM Serving through Lightweight KV-Cache Compression Framework | \texttt{FastCache} optimise la performance des modèles de langage multi-modal grâce à une stratégie de batch dynamique et un mécanisme de mémoire, réduisant significativement le temps de traitement et la consommation de mémoire dans des scénarios de haute concurrence. |
2025-03-11 | Enhancing Multi-Hop Fact Verification with Structured Knowledge-Augmented Large Language Models | L'article propose un nouveau réseau basé sur des modèles linguistiques de grande taille (LLM-SKAN) pour la vérification de faits multi-hop, soulignant l'importance de l'extraction des relations entre entités pour améliorer la précision des prédictions. |
2025-03-11 | ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews | L'article propose un cadre innovant, ReviewAgents, utilisant les grands modèles de langage pour automatiser les revues académiques, avec un dataset unique Review-CoT, révélant ainsi les limites et potentiels des LLMs par rapport aux évaluations humaines. |
2025-03-11 | Referring to Any Person | Les chercheurs présentent HumanRef, un nouveau jeu de données, et RexSeek, un modèle amélioré pour la détection de personnes via descriptions en langage naturel, surmontant les limites des modèles existants en matière de référence multiple. |
2025-03-11 | LightPlanner: Unleashing the Reasoning Capabilities of Lightweight Large Language Models in Task Planning | L'article présente LightPlanner, un planificateur de tâches innovant qui améliore les performances des modèles légers de langage dans la planification de tâches complexes en robotique, surpassant les concurrents grâce à une approche hiérarchique de raisonnement profond et une gestion efficace de la mémoire. |
2025-03-11 | Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency | Les chercheurs introduisent une méthode innovante sans nécessiter de réentraînement, appelée Position-Aware Depth Decay Decoding (D³), qui optimise l'inférence des grands modèles de langage en réduisant de moitié les opérations nécessaires tout en conservant des performances similaires. |
2025-03-11 | GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training | Le travail explore l'utilisation du cadre GTR (Guided Thought Reinforcement) pour améliorer le raisonnement et les actions des modèles vision-langage, en évitant l'effondrement de la pensée et en augmentant considérablement le taux de réussite des tâches dans des environnements visuels complexes. |
2025-03-11 | Mellow: a small audio language model for reasoning | L'article présente Mellow, un modèle audio-langage de petite taille conçu pour le raisonnement qui surpasse plusieurs grands modèles, tout en utilisant beaucoup moins de ressources, grâce au nouveau set de données ReasonAQA. |
2025-03-11 | Transferring Extreme Subword Style Using Ngram Model-Based Logit Scaling | Les chercheurs ont développé une technique de mise à l'échelle logit basée sur un modèle ngram pour transférer la variation stylistique extrême des sous-mots aux grands modèles linguistiques, optimisant ainsi la perplexité du texte généré tout en respectant le style d'un auteur ou personnage cible. |
2025-03-11 | Reasoning and Sampling-Augmented MCQ Difficulty Prediction via LLMs | Les chercheurs ont développé une méthode en deux étapes utilisant des modèles de langage pour améliorer la prédiction de la difficulté des QCM, surpassant les méthodes existantes avec une réduction significative de l'erreur moyenne quadratique et un meilleur coefficient de détermination. |
2025-03-11 | RAG-Adapter: A Plug-and-Play RAG-enhanced Framework for Long Video Understanding | Les chercheurs ont développé le RAG-Adapter, une technologie qui améliore le test d'évaluation des modèles linguistiques multi-modaux (MLLMs) sur des vidéos longues en réduisant la perte d'information, augmentant ainsi la précision de ces tests par rapport à l'échantillonnage uniforme. |
2025-03-11 | HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding | L'article présente HierarQ, un cadre basé sur un transformateur hiérarchique Q-Former qui améliore la compréhension des vidéos moyennes à longues en évitant l'échantillonnage de trames, en intégrant une modulateur de caractéristiques guidé par le langage pour une perception plus précise et contextuelle des vidéos. Les résultats montrent que HierarQ excelle dans l'analyse vidéo en offrant des performances de pointe sur 10 ensembles de données de référence. |
2025-03-11 | NSF-SciFy: Mining the NSF Awards Database for Scientific Claims | Les chercheurs ont créé NSF-SciFy, un vaste ensemble de données pour l'extraction de revendications scientifiques à partir des résumés de subventions NSF, introduisant une nouvelle tâche de différenciation entre revendications existantes et intentions de recherche aspirantes, et ont démontré des améliorations significatives en extraction de revendications et de propositions de recherche grâce à des modèles linguistiques avancés. |
2025-03-11 | LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization | L'équipe de recherche présente LightGen, un modèle de génération d'images utilisant une approche efficace avec la distillation de connaissances et l'optimisation directe des préférences, permettant une réduction significative des besoins en ressources informatiques tout en maintenant une qualité comparable aux modèles de pointe. |
2025-03-11 | Exploring the Word Sense Disambiguation Capabilities of Large Language Models | Cet article évalue les performances des grands modèles de langage (LLM) sur la désambiguïsation lexicale, révélant qu'un modèle affiné de taille moyenne surpasse les méthodes actuelles les plus avancées, bien qu'en apprentissage zero-shot, les LLMs ne dépassent pas les performances des techniques traditionnelles. |
2025-03-11 | Self-Taught Self-Correction for Small Language Models | Les chercheurs présentent l'algorithme STaSC qui permet aux petits modèles de langage de s'autocorriger par un affinage itératif utilisant des données auto-générées, améliorant ainsi leur performance sur les tâches de questions-réponses sans recourir à des outils externes ou modèles propriétaires. |
2025-03-11 | SIMAC: A Semantic-Driven Integrated Multimodal Sensing And Communication Framework | Des chercheurs présentent le SIMAC, un cadre intégrant multimodalité et communication pour améliorer l'exactitude des systèmes de détection, combinant une architecture de codage conjointe et un réseau fusionnant des informations sémantiques de multiples sources, avec des résultats prometteurs en précision et diversité des services de détection. |
2025-03-11 | Training Plug-n-Play Knowledge Modules with Deep Context Distillation | Les chercheurs proposent une solution innovante pour intégrer de nouvelles informations dans les modèles de langage grâce à des modules de connaissances documentaires spécialisés, améliorant les performances en situation de faible données et réduisant les coûts d'inférence, tout en surpassant les techniques traditionnelles dans deux jeux de données. |
2025-03-11 | IA generativa aplicada a la detección del cáncer a través de Resonancia Magnética | L'étude explore le potentiel de l'IA, via ChatGPT-4o, pour accroître les connaissances en analysant le cancer du sein avec des images DCE-MRI, tout en examinant ses limites et les implications méthodologiques d'une recherche scientifique automatisée. |
2025-03-11 | Robust Multi-Objective Controlled Decoding of Large Language Models | Les chercheurs proposent un algorithme innovant, RMOD, pour aligner les réponses des modèles de langage large avec plusieurs objectifs simultanés, optimisant les récompenses dans des scénarios de pire cas, et démontrant une performance supérieure aux méthodes existantes. |
2025-03-11 | Super-resolution of turbulent velocity and scalar fields using different scalar distributions | Des chercheurs évaluent la capacité de généralisation d'un modèle GAN super-résolution pour la simulation de turbulence, découvrant qu'en intégrant des distributions extrêmes dans les données d'entraînement, la précision sur les distributions inédites est améliorée. |
2025-03-11 | Contrastive Speaker-Aware Learning for Multi-party Dialogue Generation with LLMs | Un nouvel article présente le modèle SA-LLM, une approche innovante pour la génération de dialogues multi-parties qui utilise des modèles de langage de grande taille pré-entrainés et une stratégie d'apprentissage contrastif sensible aux locuteurs, surpassant les méthodes existantes sans nécessiter d'annotations de relations explicites. |
2025-03-11 | Interpretable and Robust Dialogue State Tracking via Natural Language Summarization with LLMs | Les chercheurs proposent une nouvelle méthode de suivi d'état de dialogue en utilisant des modèles de langage de grande taille pour générer des descriptions en langage naturel, surpassant les approches traditionnelles et offrant une plus grande précision et adaptabilité face aux dialogues complexes. |
2025-03-11 | LLMs Know What to Drop: Self-Attention Guided KV Cache Eviction for Efficient Long-Context Inference | Les chercheurs introduisent SAGE-KV, un nouvel algorithme qui optimise l'inférence à contexte long dans les modèles de langage en réduisant la cache mémoire tout en maintenant la précision, augmentant ainsi l'efficacité de l'utilisation de mémoire. |
2025-03-11 | Gradient-guided Attention Map Editing: Towards Efficient Contextual Hallucination Mitigation | Une méthode innovante, "Guided Attention Map Editing" (GAME), est présentée pour améliorer la pertinence contextuelle dans les modèles de langage en modifiant dynamiquement les cartes d'attention, réduisant ainsi les hallucinations contextuelles lors de tâches de synthèse et de questionnement, tout en améliorant l'efficacité computationnelle. |