auto-arxiv web

真正重要的不是今天读完多少篇论文，而是哪些问题因此第一次变得清晰。

2026-03-27 Research StreamShowing 121-137 / 137 papers

面向大语言模型3D空间推理的可扩展对象关系编码

Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models

Topic · 大模型后训练Relevance · 85

该论文提出一种可扩展的对象关系编码方法，旨在提升大语言模型在3D空间推理任务中的表现。通过结构化表示3D场景中对象间的空间关系，模型能够更准确理解复杂空间布局，从而增强其在机器人导航、室内理解等任务中的推理能力。

利用带自突触的单个神经元重构脉冲神经网络

Reconstructing Spiking Neural Networks Using a Single Neuron with Autapses

Topic · 其他Relevance · 60

该论文提出一种基于单个带自突触神经元重构复杂脉冲神经网络的方法，探索了自突触在神经动力学和计算能力中的作用，为简化神经网络建模提供了新思路。

当一致性成为偏见：半结构化临床访谈中的访谈者效应

When Consistency Becomes Bias: Interviewer Effects in Semi-Structured Clinical Interviews

Topic · 其他Relevance · 40

该研究探讨了半结构化临床访谈中访谈者行为对结果一致性的影响，发现过度追求一致性可能导致系统性偏见，影响诊断准确性。

面向自我改进大模型代理的经验反思学习

Experiential Reflective Learning for Self-Improving LLM Agents

Topic · AgentRelevance · 95PDF Deep Digest

本文提出了一种名为经验反思学习（ERL）的框架，使大型语言模型（LLM）代理能够通过积累经验实现自我改进。ERL通过反思任务轨迹和结果生成可复用的启发式规则，并在测试时根据当前任务检索相关启发式注入代理上下文以指导执行。在Gaia2基准测试中，ERL相比ReAct基线提升了7.8%的成功率，显著提高了任务完成的可靠性，并优于现有的经验学习方法。研究表明，启发式比原始轨迹更具可迁移性，且基于LLM的选择性检索比随机或嵌入检索更有效。

DyMRL：面向知识图谱多模态事件预测的动态多空间表示学习

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

Topic · 其他Relevance · 65

本文提出DyMRL模型，通过动态多空间表示学习方法，融合知识图谱中的多模态信息，实现对未来事件的精准预测。模型能够自适应调整不同模态的表示空间，提升事件预测的时序建模能力。

基于双图多智能体强化学习的切换优化

Dual-Graph Multi-Agent Reinforcement Learning for Handover Optimization

Topic · AgentRelevance · 90PDF Deep Digest

该论文提出了一种基于双图多智能体强化学习（Dual-Graph MARL）的切换优化方法，用于动态调整蜂窝网络中的小区个体偏移（CIO）参数。通过将每个CIO建模为双图上的一个智能体，并利用图神经网络（GNN）实现去中心化执行与局部观测聚合，该方法有效解决了传统规则或集中式强化学习在可扩展性和泛化能力上的局限。实验在ns-3系统级仿真平台上进行，结果表明所提算法TD3-D-MA在吞吐量和鲁棒性方面优于启发式策略和集中式基线，且在拓扑与流量变化下具有良好的泛化性能。

TRAJEVAL：分解代码智能体轨迹以实现细粒度诊断

TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis

Topic · AgentRelevance · 95PDF Deep Digest

TRAJEVAL 是一种用于细粒度诊断代码代理轨迹的框架，通过将代理执行过程分解为搜索（文件定位）、读取（函数理解）和编辑（修改定位）三个阶段，并基于参考补丁计算各阶段的精确率与召回率，实现对代理行为的深入分析。研究分析了来自三种代理架构和七个模型的16,758条轨迹，发现所有代理普遍存在过度探索问题（平均仅4–5%的读取精确率），但成功与否主要由召回率决定，尤其是编辑阶段的召回率。该框架不仅能以低于2.1%的平均绝对误差预测模型级Pass@1，还能通过实时反馈机制将GPT-5等模型的性能提升2.2–4.6个百分点，同时降低20–31%的成本，证明了轨迹诊断的可操作性和机制驱动优化的潜力。

Sketch2Simulation：通过多智能体大语言模型自动化流程图生成

Sketch2Simulation: Automating Flowsheet Generation via Multi Agent Large Language Models

Topic · AgentRelevance · 95PDF Deep Digest

该论文提出了一种名为Sketch2Simulation的端到端多智能体大语言模型系统，旨在将化工过程草图直接转换为可执行的Aspen HYSYS流程模拟模型。系统通过三层架构（图解解析与解释、模拟模型合成、多级验证）协同工作，每层包含专门负责视觉理解、中间表示构建、代码生成和结构验证的智能体。该方法在四个复杂度递增的化工案例中进行了评估，从简单的脱盐过程到具有多个循环回路的工业级芳烃生产流程，均成功生成可执行模型，在较简单案例中实现完全结构保真度（F1=1.00），在复杂案例中连接一致性≥0.93，流股一致性≥0.96。消融实验表明各组件对系统鲁棒性均有显著贡献，剩余挑战主要在于处理密集循环结构、隐含图示语义及模拟器接口约束。

因果AI在AMS电路设计中的应用：可解释的参数效应分析

Causal AI For AMS Circuit Design: Interpretable Parameter Effects Analysis

Topic · 其他Relevance · 65

该论文探讨了因果人工智能在模拟与混合信号（AMS）电路设计中的应用，重点在于对电路参数效应进行可解释性分析。通过因果推理方法，研究能够识别关键设计参数对电路性能的因果影响，提升设计过程的可解释性与优化效率。

基于动态功能连接的融合学习：结合fMRI信号的幅值与相位识别脑疾病

Fusion Learning from Dynamic Functional Connectivity: Combining the Amplitude and Phase of fMRI Signals to Identify Brain Disorders

Topic · 其他Relevance · 65

该研究提出一种融合学习方法，利用动态功能磁共振成像（fMRI）信号的幅值与相位信息，通过分析大脑动态功能连接模式，提升脑疾病识别的准确性。

MuViS：多模态虚拟传感基准

MuViS: Multimodal Virtual Sensing Benchmark

Topic · 其他Relevance · 60

MuViS是一个多模态虚拟传感基准，旨在评估模型在融合多种传感器数据（如视觉、声音、运动等）进行环境感知和状态推断方面的能力。该基准涵盖多种现实场景，支持对跨模态表示学习、传感器融合和上下文推理等任务的系统性评测。

FED-HARGPT：基于Transformer架构的人体上下文识别混合中心化-联邦学习方法

FED-HARGPT: A Hybrid Centralized-Federated Approach of a Transformer-based Architecture for Human Context Recognition

Topic · 大模型后训练Relevance · 85

本文提出FED-HARGPT，一种结合中心化与联邦学习的混合架构，用于基于Transformer的人体上下文识别任务。该方法在保护用户隐私的同时，利用全局模型聚合与本地微调策略提升识别性能，适用于分布式传感器环境下的行为理解。

一种可学习的SIM范式：基本原理、训练技术与应用

A Learnable SIM Paradigm: Fundamentals, Training Techniques, and Applications

Topic · 其他Relevance · 60

本文提出了一种可学习的SIM（可能指特定智能模型或系统）新范式，系统阐述了其理论基础、训练方法以及在多个场景中的应用。

X-OPD：面向语音大模型能力对齐的跨模态在线策略蒸馏

X-OPD: Cross-Modal On-Policy Distillation for Capability Alignment in Speech LLMs

Topic · 大模型后训练Relevance · 85

该论文提出了一种跨模态在线策略蒸馏方法（X-OPD），用于对齐语音大语言模型（Speech LLMs）的能力。通过结合语音与文本模态的实时交互反馈，X-OPD在训练过程中动态调整策略，提升模型在多模态任务中的表现一致性与泛化能力。

Model2Kernel：面向安全CUDA内核的模型感知符号执行

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Topic · 其他Relevance · 65

该论文提出Model2Kernel方法，结合模型感知与符号执行技术，用于验证CUDA内核的安全性。通过分析程序模型与硬件约束，提升对并行程序中内存安全与执行正确性的检测能力。

基于恶意大模型的对话AI诱导用户泄露个人信息

Malicious LLM-Based Conversational AI Makes Users Reveal Personal Information

Topic · 大模型后训练Relevance · 85

该研究探讨了经过后训练的恶意大模型如何在对话中诱导用户泄露敏感个人信息，揭示了后训练阶段安全对齐失效带来的隐私风险。

生成式人工智能聊天机器人的发展历程：过去、现在与未来

History of generative Artificial Intelligence (AI) chatbots: past, present, and future development

Topic · 其他Relevance · 60

本文回顾了生成式AI聊天机器人从早期规则系统到现代大语言模型的演进历程，分析了关键技术突破、应用场景变迁及未来发展方向。