ArXiv Intelligence

Battery-Sim-Agent: Leveraging LLM-Agent for Inverse Battery Parameter Estimation

Topic · Agent

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Opt-Verifier: Unleashing the Power of LLMs for Optimization Modeling via Dual-Side Verification

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents

Topic · Agent

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

DeepSurvey: Enhancing Analytical Depth and Citation Reliability in Automated Survey Generation

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs

Topic · Agent

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Xetrieval: Mechanistically Explaining Dense Retrieval

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

The Curse of Helpfulness: Inverse Scaling Law in Robustness to Distractor Instructions via DistractionIF

Topic · 大模型底座

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

VitalAgent: A Tool-Augmented Agent for Reactive and Proactive Physiological Monitoring over Wearable Health Data

Topic · Agent

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

CrystalXRD-Bench: Benchmarking Vision-Language Models for XRD Peak Indexing Across Diverse Crystalline Materials

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation

Topic · Agent

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

ReasonLight: A Multimodal Foundation Model-Enhanced Reinforcement Learning Framework for Zero-Shot Traffic Signal Control

Topic · 强化学习

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

When Does Persona Prompting Actually Help? A Retrieval and Metric Analysis of Expert Role Injection in LLMs

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Architecture-Sensitive Supervised Fine-Tuning for Screen-Conditioned Action Prediction: A PiSAR Benchmark

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Aligned but Fragile: Enhancing LLM Safety Robustness via Zeroth-Order Optimization

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

EvoMD-LLM: Learning the Language of Species Evolution in Reactive Molecular Dynamics

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models

Topic · 强化学习

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

PassNet: Scaling Large Language Models for Graph Compiler Pass Generation

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

ConMoE: Expert-Pool Consolidation via Prototype Reassignment for MoE Compression

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Rubric-Guided Process Reward for Stepwise Model Routing

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

2026-05-29 · 354 篇

Battery-Sim-Agent: Leveraging LLM-Agent for Inverse Battery Parameter Estimation

Opt-Verifier: Unleashing the Power of LLMs for Optimization Modeling via Dual-Side Verification

UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents

DeepSurvey: Enhancing Analytical Depth and Citation Reliability in Automated Survey Generation

MINDGAMES: A Live Arena for Evaluating Social and Strategic Reasoning in Multi-Agent LLMs

Xetrieval: Mechanistically Explaining Dense Retrieval

The Curse of Helpfulness: Inverse Scaling Law in Robustness to Distractor Instructions via DistractionIF

VitalAgent: A Tool-Augmented Agent for Reactive and Proactive Physiological Monitoring over Wearable Health Data

CrystalXRD-Bench: Benchmarking Vision-Language Models for XRD Peak Indexing Across Diverse Crystalline Materials

Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation

ReasonLight: A Multimodal Foundation Model-Enhanced Reinforcement Learning Framework for Zero-Shot Traffic Signal Control

When Does Persona Prompting Actually Help? A Retrieval and Metric Analysis of Expert Role Injection in LLMs

Architecture-Sensitive Supervised Fine-Tuning for Screen-Conditioned Action Prediction: A PiSAR Benchmark

Aligned but Fragile: Enhancing LLM Safety Robustness via Zeroth-Order Optimization

EvoMD-LLM: Learning the Language of Species Evolution in Reactive Molecular Dynamics

MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models

Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet

PassNet: Scaling Large Language Models for Graph Compiler Pass Generation

ConMoE: Expert-Pool Consolidation via Prototype Reassignment for MoE Compression

Rubric-Guided Process Reward for Stepwise Model Routing