通过证据蒸馏与写回增强训练知识库
Training the Knowledge Base through Evidence Distillation and Write-Back Enrichment
Topic · 大模型后训练Relevance · 85
该论文提出一种通过证据蒸馏和写回机制增强知识库的方法,旨在提升大模型在知识密集型任务中的表现。
回归基础:在语音代理时代重新审视ASR
Back to Basics: Revisiting ASR in the Age of Voice Agents
Topic · 其他Relevance · 85
本文回顾了自动语音识别(ASR)在语音代理快速发展背景下的基础技术与挑战,探讨传统方法与现代深度学习模型的结合潜力。
R-C2:循环一致性强化学习提升多模态推理能力
R-C2: Cycle-Consistent Reinforcement Learning Improves Multimodal Reasoning
Topic · 强化学习Relevance · 95
该论文提出一种基于循环一致性的强化学习方法(R-C2),用于提升模型在多模态推理任务中的表现。通过引入循环一致性约束,增强模型在不同模态间推理的稳定性和准确性。
面向高层次综合的Agent工厂:通用编码Agent在硬件优化中能走多远?
Agent Factories for High Level Synthesis: How Far Can General-Purpose Coding Agents Go in Hardware Optimization?
Topic · AgentRelevance · 85
本文探讨了通用编码Agent在高层次综合(HLS)任务中的应用潜力,提出了一种基于Agent工厂的自动化硬件优化框架,评估其在代码生成、优化策略探索和性能调优方面的能力。
EcoThink:面向可持续与可访问智能体的绿色自适应推理框架
EcoThink: A Green Adaptive Inference Framework for Sustainable and Accessible Agents
Topic · AgentRelevance · 90
本文提出EcoThink,一种绿色自适应推理框架,旨在提升智能体在资源受限环境下的可持续性与可访问性。
基于网格逼近的神经网络概率抽象解释
Probabilistic Abstract Interpretation on Neural Networks via Grids Approximation
Topic · 机器学习框架Relevance · 75
该论文提出一种通过网格近似对神经网络进行概率抽象解释的方法,旨在提升对神经网络行为的形式化分析与验证能力。
能力阴影:AI在安全工程中辅助作用的理论研究与边界分析
The Competence Shadow: Theory and Bounds of AI Assistance in Safety Engineering
Topic · 其他Relevance · 60
本文提出“能力阴影”概念,探讨AI在安全工程中的辅助作用及其局限性,分析AI能力边界对系统安全性的影响,并提出理论框架以界定AI在关键安全任务中的适用性。
Trace2Skill:将轨迹局部经验提炼为可迁移的智能体技能
Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills
Topic · AgentRelevance · 95
该论文提出Trace2Skill方法,旨在从智能体执行轨迹中提取局部经验,并将其转化为可迁移的通用技能,以提升智能体在新任务中的适应能力。
UniAI-GraphRAG:融合本体引导抽取、多维聚类与双通道融合的多跳推理增强框架
UniAI-GraphRAG: Synergizing Ontology-Guided Extraction, Multi-Dimensional Clustering, and Dual-Channel Fusion for Robust Multi-Hop Reasoning
Topic · 大模型后训练Relevance · 85
本文提出 UniAI-GraphRAG 框架,通过本体引导的知识抽取、多维图聚类与双通道信息融合机制,提升大模型在多跳推理任务中的鲁棒性与准确性。
RubricEval:面向指令遵循的LLM评判者在评分标准层面的元评估基准
RubricEval: A Rubric-Level Meta-Evaluation Benchmark for LLM Judges in Instruction Following
Topic · 大模型后训练Relevance · 85
RubricEval是一个针对大模型作为评判者(LLM Judge)在指令遵循任务中的元评估基准,聚焦于评分标准(rubric)层面的细粒度分析。该基准通过构建多层次、可解释的评分标准,系统评估LLM评判者在一致性、准确性和偏差控制方面的表现,旨在提升自动评估的可靠性。
当感知随上下文变化时:用于触觉少样本类增量学习的上下文即变换方法
When Sensing Varies with Contexts: Context-as-Transform for Tactile Few-Shot Class-Incremental Learning
Topic · 具身智能Relevance · 90
该论文提出了一种名为“上下文即变换”(Context-as-Transform)的新方法,用于解决触觉感知中的少样本类增量学习问题。由于触觉信号高度依赖上下文(如物体材质、接触角度等),传统模型难以泛化。该方法将上下文信息建模为数据变换,动态调整输入表示,从而提升模型在新类别上的适应能力。实验表明,在多个触觉数据集上,该方法在少样本和类增量设定下显著优于现有基线。
ElephantBroker:面向可信AI代理的知识驱动认知运行时
ElephantBroker: A Knowledge-Grounded Cognitive Runtime for Trustworthy AI Agents
Topic · AgentRelevance · 95
本文提出ElephantBroker,一种知识驱动的认知运行时系统,旨在提升AI代理的可信度与认知能力。
视觉-语言模型中的稀疏视觉思维电路
Sparse Visual Thought Circuits in Vision-Language Models
Topic · 大模型底座Relevance · 85
该论文探索了在视觉-语言模型中引入稀疏视觉思维电路,以提升模型对视觉信息的处理效率和可解释性。
MP-MoE:基于矩阵剖面的专家混合模型用于降水预报
MP-MoE: Matrix Profile-Guided Mixture of Experts for Precipitation Forecasting
Topic · 其他Relevance · 65
该论文提出了一种基于矩阵剖面(Matrix Profile)引导的专家混合(Mixture of Experts, MoE)模型,用于降水预报任务。通过矩阵剖面技术识别时间序列中的关键模式,动态选择专家网络进行预测,提升模型对复杂气象数据的建模能力。
视觉-语言模型中压缩机制的解释
Mechanistically Interpreting Compression in Vision-Language Models
Topic · 其他Relevance · 60
该论文探讨了视觉-语言模型中信息压缩的机制,试图从机理上解释模型如何在多模态融合过程中实现高效的信息表示。
从无状态到情境化:构建基于大语言模型的情感支持心理世界
From Stateless to Situated: Building a Psychological World for LLM-Based Emotional Support
Topic · 大模型后训练Relevance · 90
该论文探讨如何通过情境化建模增强大语言模型在情感支持任务中的表现,提出构建心理世界以赋予模型更丰富的上下文理解与共情能力,属于大模型后训练中的情感对齐与角色适应方向。
基于系统锚定的膝关节估计用于PDE预测中的低成本上下文窗口选择
System-Anchored Knee Estimation for Low-Cost Context Window Selection in PDE Forecasting
Topic · 其他Relevance · 30
该论文提出了一种结合膝关节估计与系统锚定机制的方法,用于在偏微分方程(PDE)预测任务中选择低成本的上下文窗口。通过识别模型性能变化的拐点(即“膝关节”),并结合系统动态特性进行锚定,实现计算效率与预测精度之间的平衡。
基于约束耦合推理架构的蒸馏抵抗公共理论
A Public Theory of Distillation Resistance via Constraint-Coupled Reasoning Architectures
Topic · 其他Relevance · 60
该论文提出了一种新的理论框架,用于解释和增强模型对知识蒸馏攻击的抵抗能力,通过约束耦合的推理架构实现。
多智能体系统中的故障归因再思考:多视角基准与评估
Rethinking Failure Attribution in Multi-Agent Systems: A Multi-Perspective Benchmark and Evaluation
Topic · AgentRelevance · 95
本文提出了一种多视角基准框架,用于评估多智能体系统中故障归因的准确性与鲁棒性,涵盖个体行为、协作机制与环境交互等多个维度。
大模型中的不确定性剖析
The Anatomy of Uncertainty in LLMs
Topic · 大模型底座Relevance · 85
本文系统分析了大语言模型中不确定性的来源、表现形式及其对模型性能的影响,涵盖模型内部机制与外部输入的交互。