auto-arxiv web

图像旋转角度估计：圆形感知方法比较

Image Rotation Angle Estimation: Comparing Circular-Aware Methods

Topic · 其他Relevance · 40

本文比较了多种基于圆形感知的图像旋转角度估计方法，评估其在不同数据集上的性能表现。

Chat

自适应分块：优化RAG中的分块方法选择

Adaptive Chunking: Optimizing Chunking-Method Selection for RAG

Topic · 大模型后训练Relevance · 85

该论文提出了一种自适应分块策略，用于在检索增强生成（RAG）系统中动态选择最优的分块方法，以提升检索效率与生成质量。

Chat

剪枝如何重塑特征：基于稀疏自编码器的权重剪枝语言模型分析

How Pruning Reshapes Features: Sparse Autoencoder Analysis of Weight-Pruned Language Models

Topic · 大模型后训练Relevance · 85

该研究探讨了权重剪枝对语言模型内部特征表示的影响，利用稀疏自编码器分析剪枝后模型的特征变化，揭示了剪枝如何重塑神经元激活模式与特征重要性。

Chat

AD-CARE：基于指南、模态无关的LLM智能体，用于真实世界阿尔茨海默病诊断的多队列评估、公平性分析与读者研究

AD-CARE: A Guideline-grounded, Modality-agnostic LLM Agent for Real-world Alzheimer's Disease Diagnosis with Multi-cohort Assessment, Fairness Analysis, and Reader Study

Topic · AgentRelevance · 95PDF Deep Digest

AD-CARE 是一种基于指南、模态无关的 LLM 智能体，用于阿尔茨海默病（AD）的临床诊断。该系统通过动态调用专用诊断工具并嵌入临床指南，实现对不完整、异构多模态数据的透明推理和结构化报告生成。在涵盖 10,303 例病例的六个队列中，AD-CARE 达到 84.9% 的诊断准确率，较基线方法提升 4.2%–13.7%，并在种族和年龄亚组间显著降低性能差异。读者研究表明，该系统可将神经科医生和放射科医生的诊断准确率提高 6%–11%，决策时间缩短一半以上。此外，AD-CARE 在八种不同 LLM 后端上均表现出稳健性能，支持低成本模型部署，具备良好的临床实用性和可扩展性。

Chat

揭示参与者故障对跨机构联邦学习中模型质量的影响

Revealing the influence of participant failures on model quality in cross-silo Federated Learning

Topic · 其他Relevance · 65

该研究探讨了跨机构联邦学习（cross-silo FL）中参与者发生故障时对全局模型质量的影响，分析了不同故障模式（如节点掉线、数据偏差或恶意行为）如何影响模型收敛性和性能，并提出了相应的容错机制以增强系统鲁棒性。

Chat

基于CSI元组与多模态学习的3D信道指纹构建

CSI-tuples-based 3D Channel Fingerprints Construction Assisted by MultiModal Learning

Topic · 其他Relevance · 45

该论文提出一种结合信道状态信息（CSI）元组与多模态学习的方法，用于构建三维空间中的信道指纹，以提升无线通信中的定位与环境感知能力。

Chat

CRAFT：部分信息下的具身多智能体协调

CRAFT: Grounded Multi-Agent Coordination Under Partial Information

Topic · AgentRelevance · 95PDF Deep Digest

本文提出CRAFT，一个用于评估大型语言模型在部分可观测环境下多智能体语用协调能力的基准测试。在该任务中，三个拥有互补但不完整视角的‘导演’智能体必须通过自然语言协作指导一个‘建造者’重建3D结构。研究将问题形式化为多发送者语用推理任务，并提出基于有界语用说话者（BPS）的理论框架，结合LLM自动评分器对失败模式进行细粒度诊断。实验涵盖15个前沿和开源模型，发现更强的个体推理能力并不保证更好的协作表现：较小规模的开源模型（如Mistral-7B、Qwen-7B）常优于多数前沿模型；个体沟通质量与任务进展呈负相关；且存在‘修正螺旋’行为——过度纠错导致无效移除动作，消耗回合资源却无进展。结果表明当前语言模型在多智能体协调上仍面临根本性挑战。

Chat

MolQuest：化学结构解析中溯因推理的Agent评估基准

MolQuest: A Benchmark for Agentic Evaluation of Abductive Reasoning in Chemical Structure Elucidation

Topic · AgentRelevance · 95PDF Deep Digest

MolQuest 是一个用于评估大型语言模型在化学结构解析中进行溯因推理和策略性决策能力的动态基准测试。该基准将分子结构解析形式化为一个多轮交互式任务，要求模型在模拟实验室环境中主动规划实验步骤、整合多种光谱数据（如 NMR、MS），并迭代优化结构假设。研究基于真实化学文献构建数据集，涵盖 530 个分子案例，评估了 12 个前沿 LLM 在动态代理模式与静态一次性输入模式下的表现。结果显示，即使是当前最优模型（如 Gemini 3 Flash）准确率也仅约 50%，多数模型低于 30%，揭示了现有模型在真实科研场景中的显著局限性。该工作为科学导向的 LLM 评估提供了可复现、可扩展的框架，并强调需从静态问答转向动态推理评估。

Chat

解释正确性是否重要？将可解释AI的计算评估与人类理解联系起来

Does Explanation Correctness Matter? Linking Computational XAI Evaluation to Human Understanding

Topic · 其他Relevance · 65

该研究探讨了可解释人工智能（XAI）中解释正确性对人类理解的影响，强调当前计算方法评估与人类认知之间的差距，并提出需将人类理解纳入XAI评估框架。

Chat

激活决定一切：基于视觉-语言模型的测试时激活负标签用于OOD检测

Activation Matters: Test-time Activated Negative Labels for OOD Detection with Vision-Language Models

Topic · 大模型后训练Relevance · 85

该论文提出一种在测试时动态激活负标签的方法，用于提升视觉-语言模型在分布外（OOD）检测任务中的表现。通过分析模型激活模式，引入可学习的负标签机制，增强模型对未知类别的识别能力。

Chat

FEAST：用于空间转录组学的全连接表达注意力机制

FEAST: Fully Connected Expressive Attention for Spatial Transcriptomics

Topic · 机器学习框架Relevance · 85

FEAST 是一种专为空间转录组学设计的新型深度学习框架，通过全连接表达注意力机制捕捉基因表达与空间位置之间的复杂关系。

Chat

FluxEDA：面向有状态智能体EDA的统一执行基础设施

FluxEDA: A Unified Execution Infrastructure for Stateful Agentic EDA

Topic · AgentRelevance · 95PDF Deep Digest

FluxEDA 是一种面向智能体 EDA 的统⼀且有状态的基础设施架构，旨在解决现有脚本级或请求级交互无法保持工具状态、难以支持迭代优化的问题。通过引入基于网关的执⾏接⼝和持久化后端实例，FluxEDA 实现了对异构 EDA ⼯具的状态保持访问，支持多步骤分析、状态重⽤、回滚与协同迭代。框架采⽤分层设计，将 MCP 协议⽤于标准化能⼒暴露，并通过领域特定的 Skills 编码⼯作流知识，从⽽实现低层⼯具调⽤与⾼层设计意图的解耦。在两个商业级案例（后布线时序 ECO 和⼦库优化）中的实验表明，FluxEDA 能够⽀持基于真实⼯具上下⽂的持续分析-执⾏-优化循环，验证了其在实际⽣产环境中应⽤的可⾏性。

Chat

WebTestBench：面向端到端自动化网页测试的计算机使用代理评估

WebTestBench: Evaluating Computer-Use Agents towards End-to-End Automated Web Testing

Topic · GUI AgentRelevance · 95

本文提出 WebTestBench，一个用于评估计算机使用代理在端到端网页测试任务中表现的综合基准。该基准涵盖多种网页交互场景，旨在衡量代理在真实浏览器环境中执行测试用例的能力。

Chat

面向AI原生6G网络的无线世界模型

A Wireless World Model for AI-Native 6G Networks

Topic · 大模型底座Relevance · 85

该论文提出了一种面向AI原生6G网络的无线世界模型，旨在通过构建对无线网络环境的统一建模能力，支持智能决策与资源优化。该模型作为底层支撑架构，具备对复杂无线场景的理解与预测能力，可服务于多种上层AI应用，体现出大模型底座的核心特征。

Chat

通过层自适应O.O.D校正实现免费午餐式长视频生成

Free-Lunch Long Video Generation via Layer-Adaptive O.O.D Correction

Topic · 大模型底座Relevance · 85

该论文提出一种层自适应的分布外（O.O.D）校正方法，用于提升长视频生成的质量与稳定性，无需额外训练成本，适用于大模型底座的视频生成任务。

Chat

十年期基准测试：评估大语言模型在多轮对话中临床实践指南的检测与遵循能力

A Decade-Scale Benchmark Evaluating LLMs' Clinical Practice Guidelines Detection and Adherence in Multi-turn Conversations

Topic · 大模型后训练Relevance · 85

该研究构建了一个长期基准，用于评估大语言模型在多轮医患对话中识别和遵循临床实践指南的能力，涵盖诊断、治疗建议等关键医疗场景。

Chat

探究大语言模型缺乏稳定内在信念的问题

Probing the Lack of Stable Internal Beliefs in LLMs

Topic · 记忆Relevance · 85

该论文探讨了大型语言模型（LLMs）在维持稳定内在信念方面的缺陷，分析了其在不同情境下信念不一致的现象，并尝试从记忆机制和认知架构角度解释其原因。

Chat

在移动边缘训练：面向高效大模型推理训练的在线验证提示选择

Train at Moving Edge: Online-Verified Prompt Selection for Efficient RL Training of Large Reasoning Model

Topic · 强化学习Relevance · 90

该论文提出一种在移动边缘环境中进行高效强化学习训练的方法，通过在线验证机制动态选择最优提示，以提升大模型推理能力的训练效率。

Chat

基于热辐射建模的知识引导对抗训练用于红外目标检测

Knowledge-Guided Adversarial Training for Infrared Object Detection via Thermal Radiation Modeling

Topic · 其他Relevance · 65

该论文提出一种结合热辐射物理模型的知识引导对抗训练方法，以提升红外目标检测在复杂环境下的鲁棒性。

Chat

PIDP-Attack：结合提示注入与数据库投毒攻击检索增强生成系统

PIDP-Attack: Combining Prompt Injection with Database Poisoning Attacks on Retrieval-Augmented Generation Systems

Topic · 其他Relevance · 75

该论文提出一种新型攻击方法PIDP-Attack，通过联合使用提示注入（Prompt Injection）和数据库投毒（Database Poisoning）技术，针对检索增强生成（RAG）系统进行安全攻击。该方法利用外部知识库中的恶意数据注入与用户输入提示的操控，干扰模型输出，降低系统可靠性。研究揭示了RAG架构在数据源可信度和输入过滤方面的潜在漏洞，为防御机制设计提供了重要参考。

Chat