ArXiv Intelligence

Beyond Trajectory Rewards: Step-level Credit Assignment for Agentic Search via Graph Modeling

Topic · Agent

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

FHRFormer: A Self-Supervised Masked Transformer Framework for Fetal Heart Rate Time-Series Inpainting and Forecasting

Topic · 机器学习框架

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Reliable Reasoning with Large Language Models via Preference-Based Maximum Satisfiability

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

NICE: A Theory-Grounded Diagnostic Benchmark for Social Intelligence of LLMs

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems

Topic · Agent

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

GRASP: Gated Regression-Aware Skill Proposer for Self-Improving LLM Agents

Topic · Agent

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

TRACE: Toulmin-based Reasoning Assessment through Constructive Elements for LLM CoT Evaluation

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

PTCG-Bench: Can LLM Agents Master Pokémon Trading Card Game?

Topic · Agent

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Think Fast, Talk Smart: Partitioning Deterministic and Neural Computation for Structured Health Text Generation

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

LLM-Evolved Domain-Independent Heuristics for Symbolic AI Planning

Topic · Agent

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

VikingMem: A Memory Base Management System for Stateful LLM-based Applications

Topic · 记忆

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Beyond Attack Success Rate: Temporal Logit Observability for LLM Safety Failures

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Improving Collaborative Storytelling with a Multi-Agent Framework Based on Large Language Models

Topic · Agent

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

HiKEY: Hierarchical Multimodal Retrieval for Open-Domain Document Question Answering

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Mind-Omni: A Unified Multi-Task Framework for Brain-Vision-Language Modeling via Discrete Diffusion

Topic · 机器学习框架

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

FinVerBench: Benchmark Validity and Calibration in Large Language Model Financial Statement Verification

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

GPS-Enhanced Tourist Mobility Modeling with Seasonal Spatial Priors and LLM-Based Activity Chain Generation

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning

Topic · 强化学习

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

Planning with the Views via Scene Self-Exploration

Topic · Agent

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

ParaTool: Shifting Tool Representations from Context to Parameters

Topic · 其他

仅有原始 MD

Quick Read

LLM failed, fallback used

详情问答

2026-05-29 · 354 篇

Beyond Trajectory Rewards: Step-level Credit Assignment for Agentic Search via Graph Modeling

FHRFormer: A Self-Supervised Masked Transformer Framework for Fetal Heart Rate Time-Series Inpainting and Forecasting

Reliable Reasoning with Large Language Models via Preference-Based Maximum Satisfiability

NICE: A Theory-Grounded Diagnostic Benchmark for Social Intelligence of LLMs

Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems

GRASP: Gated Regression-Aware Skill Proposer for Self-Improving LLM Agents

TRACE: Toulmin-based Reasoning Assessment through Constructive Elements for LLM CoT Evaluation

PTCG-Bench: Can LLM Agents Master Pokémon Trading Card Game?

Think Fast, Talk Smart: Partitioning Deterministic and Neural Computation for Structured Health Text Generation

LLM-Evolved Domain-Independent Heuristics for Symbolic AI Planning

VikingMem: A Memory Base Management System for Stateful LLM-based Applications

Beyond Attack Success Rate: Temporal Logit Observability for LLM Safety Failures

Improving Collaborative Storytelling with a Multi-Agent Framework Based on Large Language Models

HiKEY: Hierarchical Multimodal Retrieval for Open-Domain Document Question Answering

Mind-Omni: A Unified Multi-Task Framework for Brain-Vision-Language Modeling via Discrete Diffusion

FinVerBench: Benchmark Validity and Calibration in Large Language Model Financial Statement Verification

GPS-Enhanced Tourist Mobility Modeling with Seasonal Spatial Priors and LLM-Based Activity Chain Generation

DeepTool: Scaling Interleaved Deliberation in Tool-Integrated Reasoning via Process-Supervised Reinforcement Learning

Planning with the Views via Scene Self-Exploration

ParaTool: Shifting Tool Representations from Context to Parameters