auto-arxiv web

通过证据蒸馏与写回增强训练知识库

Training the Knowledge Base through Evidence Distillation and Write-Back Enrichment

Topic · 大模型后训练Relevance · 85

该论文提出一种通过证据蒸馏和写回机制增强知识库的方法，旨在提升大模型在知识密集型任务中的表现。

Chat

回归基础：在语音代理时代重新审视ASR

Back to Basics: Revisiting ASR in the Age of Voice Agents

Topic · 其他Relevance · 85

本文回顾了自动语音识别（ASR）在语音代理快速发展背景下的基础技术与挑战，探讨传统方法与现代深度学习模型的结合潜力。

Chat

R-C2：循环一致性强化学习提升多模态推理能力

R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning

Topic · 强化学习Relevance · 95

该论文提出一种基于循环一致性的强化学习方法（R-C2），用于提升模型在多模态推理任务中的表现。通过引入循环一致性约束，增强模型在不同模态间推理的稳定性和准确性。

Chat

面向高层次综合的Agent工厂：通用编码Agent在硬件优化中能走多远？

Agent Factories for High Level Synthesis: How Far Can General-Purpose Coding Agents Go in Hardware Optimization?

Topic · AgentRelevance · 85PDF Deep Digest

该论文提出了一种名为‘代理工厂’的两阶段自动化框架，用于在高层次综合（HLS）中优化硬件设计。第一阶段通过子内核独立优化并结合整数线性规划（ILP）在面积约束下选择最优配置；第二阶段启动多个专家代理，在全局范围内探索跨函数优化路径，如编译指示重组、循环融合和内存重构。实验基于12个来自HLS-Eval和Rodinia-HLS的基准测试，使用Claude Code（Opus 4.5/4.6）与AMD Vitis HLS工具链进行评估。结果显示，随着代理数量从1增至10，平均获得8.27倍加速比，其中streamcluster甚至超过20倍加速。研究表明，通用编码代理无需硬件特定训练即可有效发现已知优化模式，且全局优化能突破子内核分解的局限，验证了‘代理扩展’作为HLS优化新维度的有效性。

Chat

EcoThink：面向可持续与可访问智能体的绿色自适应推理框架

EcoThink: A Green Adaptive Inference Framework for Sustainable and Accessible Agents

Topic · AgentRelevance · 90PDF Deep Digest

EcoThink 是一种绿色自适应推理框架，旨在解决大语言模型在生成式交互中因过度计算（如链式思维 CoT）导致的能源浪费问题。该框架通过轻量级蒸馏路由器动态评估查询复杂度，将简单事实检索类查询导向低能耗的“绿色路径”（基于 RAG 和量化小模型），而仅对复杂逻辑任务启用高计算量的“深度路径”（集成 UniMath-CoT 和 Tree of Thoughts 机制）。在 9 个涵盖数学、常识、网络知识检索和对话安全性的基准测试中，EcoThink 平均降低 40.4% 的推理能耗（最高达 81.9%），同时保持与先进专有模型相近的性能（97.4% 相对性能），为实现可持续且普惠的 AI 代理提供了可扩展路径。

Chat

基于网格逼近的神经网络概率抽象解释

Probabilistic Abstract Interpretation on Neural Networks via Grids Approximation

Topic · 机器学习框架Relevance · 75

该论文提出一种通过网格近似对神经网络进行概率抽象解释的方法，旨在提升对神经网络行为的形式化分析与验证能力。

Chat

能力阴影：AI在安全工程中辅助作用的理论研究与边界分析

The Competence Shadow: Theory and Bounds of AI Assistance in Safety Engineering

Topic · 其他Relevance · 60

本文提出“能力阴影”概念，探讨AI在安全工程中的辅助作用及其局限性，分析AI能力边界对系统安全性的影响，并提出理论框架以界定AI在关键安全任务中的适用性。

Chat

Trace2Skill：将轨迹局部经验提炼为可迁移的智能体技能

Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

Topic · AgentRelevance · 95PDF Deep Digest

Trace2Skill 是一种模拟人类专家编写技能方式的自动化框架，通过并行分析大量执行轨迹，归纳出可迁移的通用技能。该框架分为三个阶段：轨迹生成、并行多智能体补丁提议和冲突自由的层级合并。实验表明，在电子表格、数学推理和视觉问答等复杂任务中，Trace2Skill 显著优于现有基线方法，且生成的技能在不同模型规模（如 Qwen3.5-35B 到 Qwen3.5-122B）和分布外任务（如从 SpreadsheetBench 到 WikiTableQuestions）间具有良好的迁移能力。关键创新在于使用并行归纳推理替代顺序更新，避免过拟合并提升效率。

Chat

UniAI-GraphRAG：融合本体引导抽取、多维聚类与双通道融合的多跳推理增强框架

UniAI-GraphRAG: Synergizing Ontology-Guided Extraction, Multi-Dimensional Clustering, and Dual-Channel Fusion for Robust Multi-Hop Reasoning

Topic · 大模型后训练Relevance · 85

本文提出 UniAI-GraphRAG 框架，通过本体引导的知识抽取、多维图聚类与双通道信息融合机制，提升大模型在多跳推理任务中的鲁棒性与准确性。

Chat

RubricEval：面向指令遵循的LLM评判者在评分标准层面的元评估基准

RubricEval: A Rubric-Level Meta-Evaluation Benchmark for LLM Judges in Instruction Following

Topic · 大模型后训练Relevance · 85

RubricEval是一个针对大模型作为评判者（LLM Judge）在指令遵循任务中的元评估基准，聚焦于评分标准（rubric）层面的细粒度分析。该基准通过构建多层次、可解释的评分标准，系统评估LLM评判者在一致性、准确性和偏差控制方面的表现，旨在提升自动评估的可靠性。

Chat

当感知随上下文变化时：用于触觉少样本类增量学习的上下文即变换方法

When Sensing Varies with Contexts: Context-as-Transform for Tactile Few-Shot Class-Incremental Learning

Topic · 具身智能Relevance · 90

该论文提出了一种名为“上下文即变换”（Context-as-Transform）的新方法，用于解决触觉感知中的少样本类增量学习问题。由于触觉信号高度依赖上下文（如物体材质、接触角度等），传统模型难以泛化。该方法将上下文信息建模为数据变换，动态调整输入表示，从而提升模型在新类别上的适应能力。实验表明，在多个触觉数据集上，该方法在少样本和类增量设定下显著优于现有基线。

Chat

ElephantBroker：面向可信AI代理的知识驱动认知运行时

ElephantBroker: A Knowledge-Grounded Cognitive Runtime for Trustworthy AI Agents

Topic · AgentRelevance · 95PDF Deep Digest

ElephantBroker 是一个面向可信 AI 代理的开源认知运行时系统，通过将 Neo4j 知识图谱与 Qdrant 向量存储结合，提供具备持久化、可验证记忆的完整认知循环。系统创新性地实现了混合五源检索、十一维竞争评分、四状态证据验证、六层安全防护和九阶段记忆整合等机制，支持预算约束下的上下文组装与目标感知的记忆管理。架构上采用四层设计，支持三种部署层级和五种预设配置，并通过管理面板实现企业级审计与人工监督，已在超过 2,200 项测试中验证其模块正确性。

Chat

视觉-语言模型中的稀疏视觉思维电路

Sparse Visual Thought Circuits in Vision-Language Models

Topic · 大模型底座Relevance · 85

该论文探索了在视觉-语言模型中引入稀疏视觉思维电路，以提升模型对视觉信息的处理效率和可解释性。

Chat

MP-MoE：基于矩阵剖面的专家混合模型用于降水预报

MP-MoE: Matrix Profile-Guided Mixture of Experts for Precipitation Forecasting

Topic · 其他Relevance · 65

该论文提出了一种基于矩阵剖面（Matrix Profile）引导的专家混合（Mixture of Experts, MoE）模型，用于降水预报任务。通过矩阵剖面技术识别时间序列中的关键模式，动态选择专家网络进行预测，提升模型对复杂气象数据的建模能力。

Chat

视觉-语言模型中压缩机制的解释

Mechanistically Interpreting Compression in Vision-Language Models

Topic · 其他Relevance · 60

该论文探讨了视觉-语言模型中信息压缩的机制，试图从机理上解释模型如何在多模态融合过程中实现高效的信息表示。

Chat

从无状态到情境化：构建基于大语言模型的情感支持心理世界

From Stateless to Situated: Building a Psychological World for LLM-Based Emotional Support

Topic · 大模型后训练Relevance · 90

该论文探讨如何通过情境化建模增强大语言模型在情感支持任务中的表现，提出构建心理世界以赋予模型更丰富的上下文理解与共情能力，属于大模型后训练中的情感对齐与角色适应方向。

Chat

基于系统锚定的膝关节估计用于PDE预测中的低成本上下文窗口选择

System-Anchored Knee Estimation for Low-Cost Context Window Selection in PDE Forecasting

Topic · 其他Relevance · 30

该论文提出了一种结合膝关节估计与系统锚定机制的方法，用于在偏微分方程（PDE）预测任务中选择低成本的上下文窗口。通过识别模型性能变化的拐点（即“膝关节”），并结合系统动态特性进行锚定，实现计算效率与预测精度之间的平衡。

Chat

基于约束耦合推理架构的蒸馏抵抗公共理论

A Public Theory of Distillation Resistance via Constraint-Coupled Reasoning Architectures

Topic · 其他Relevance · 60

该论文提出了一种新的理论框架，用于解释和增强模型对知识蒸馏攻击的抵抗能力，通过约束耦合的推理架构实现。

Chat

多智能体系统中的故障归因再思考：多视角基准与评估

Rethinking Failure Attribution in Multi-Agent Systems: A Multi-Perspective Benchmark and Evaluation

Topic · AgentRelevance · 95PDF Deep Digest

本文重新审视了多智能体系统（MAS）中的故障归因问题，指出现有方法通常假设每个故障存在唯一确定的根本原因，而实际中由于智能体间的复杂依赖关系和执行路径的模糊性，故障往往允许多个合理的归因视角。为此，作者提出‘多视角故障归因’范式，并构建了首个专门支持该范式的基准MP-Bench，包含289个由三位专家独立标注的MAS执行日志，每个标注均附带失败步骤、原因及理想操作。实验表明，当采用多视角评估协议时，大语言模型（LLMs）通过多次采样能有效识别多样化的合理归因，且其推理与人类专家高度一致，挑战了此前认为LLMs在故障归因上表现接近随机的结论。研究强调，现有基准的局限性源于对确定性假设的依赖，而非模型能力不足。

Chat

大模型中的不确定性剖析

The Anatomy of Uncertainty in LLMs

Topic · 大模型底座Relevance · 85

本文系统分析了大语言模型中不确定性的来源、表现形式及其对模型性能的影响，涵盖模型内部机制与外部输入的交互。

Chat