auto-arxiv web

真正重要的不是今天读完多少篇论文，而是哪些问题因此第一次变得清晰。

2026-03-27 Research StreamShowing 21-40 / 152 papers

一次设计，规模部署：面向大模型生态系统的模板驱动ML开发

Design Once, Deploy at Scale: Template-Driven ML Development for Large Model Ecosystems

Topic · 机器学习框架Relevance · 95

本文提出一种模板驱动的机器学习开发范式，旨在简化大模型生态系统中的模型设计、训练与部署流程。通过预定义可复用的开发模板，实现从实验到生产的高效迁移，提升开发效率与系统一致性。

多模态大模型能读懂学生思维吗？手写数学题错误分析研究

Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math

Topic · 大模型后训练Relevance · 85

该研究探讨了多模态大模型（MLLMs）在理解学生手写数学解答过程中的错误分析能力，评估其在教育场景中的实际应用潜力。

与平台AI助手购物：谁在采用、何时采用以及为何采用

Shopping with a Platform AI Assistant: Who Adopts, When in the Journey, and What For

Topic · AgentRelevance · 85PDF Deep Digest

该研究基于携程平台3100万用户的大规模数据，分析了一款嵌入平台的LLM购物助手“Wendao”的用户采纳与使用模式。研究发现：第一，AI助手的采纳者多为年龄较大、女性及平台忠诚度高的用户，这与通用AI工具以年轻男性为主的采纳模式形成鲜明对比；第二，AI聊天行为主要出现在购买旅程中与传统搜索并行的阶段，且常与搜索行为交错发生，而非替代搜索；第三，用户更倾向于将AI助手用于探索性、难以关键词表达的任务，如景点查询占全部聊天请求的42%，且聊天意图与后续购买类别高度相关。这些结果表明，平台嵌入式购物AI主要作为传统搜索的补充工具，帮助用户进行开放式产品发现。

FinMCP-Bench：基于模型上下文协议的真实金融工具使用大模型智能体基准测试

FinMCP-Bench: Benchmarking LLM Agents for Real-World Financial Tool Use under the Model Context Protocol

Topic · AgentRelevance · 95PDF Deep Digest

FinMCP-Bench 是一个用于评估大语言模型（LLM）在真实金融场景中调用 Model Context Protocol（MCP）工具能力的新型基准测试。该基准包含 613 个样本，涵盖 10 个主要场景和 33 个子场景，支持单工具、多工具和多轮对话三种任务类型，以评估不同复杂度的工具使用能力。研究团队基于真实生产环境中的 10,000 条交互日志构建数据集，并通过链式生成与角色扮演方法合成高难度样本，确保数据多样性与真实性。实验评估了包括 Qwen3 系列在内的多个主流 LLM，提出工具调用准确率、召回率、F1 值及完全匹配率（EMR）等指标，结果显示当前模型在处理多工具依赖和多轮对话时仍面临挑战。

基于预测性语句分类的加密货币推文市场情绪解码：机器学习与Transformer方法

Decoding Market Emotions in Cryptocurrency Tweets via Predictive Statement Classification with Machine Learning and Transformers

Topic · 机器学习框架Relevance · 85

该研究利用机器学习与Transformer模型对加密货币相关推文中的预测性语句进行分类，以解码市场情绪。通过构建分类模型识别具有预测性质的文本内容，进而分析社交媒体情绪对加密货币市场的影响。

监督拉尔夫·威古姆：探索用于工程设计的元认知协同调节智能体AI循环

Supervising Ralph Wiggum: Exploring a Metacognitive Co-Regulation Agentic AI Loop for Engineering Design

Topic · AgentRelevance · 85PDF Deep Digest

本文提出了一种新颖的元认知协同调节代理AI循环（CRDAL），通过引入独立的元认知协同调节代理来辅助设计代理进行自我监控与策略调整，以缓解工程设计中的设计固着问题。在电池包配置设计任务中，CRDAL相比基础的Ralph Wiggum循环（RWL）和自调节循环（SRL）显著提升了设计方案的性能（平均容量达70.92Ah），且未显著增加计算成本。此外，CRDAL在潜在设计空间中的探索更为有效，能够更成功地突破局部最优。然而，SRL虽探索了不同区域的设计空间，但其性能并未显著优于RWL。

智能体工具协议的正式语义：一种进程演算方法

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach

Topic · AgentRelevance · 95PDF Deep Digest

本文首次为智能体工具协议（SGD与MCP）建立了基于π-演算的形式语义，通过定义语法、操作语义和标记转移系统，证明了二者在映射Φ下结构双模拟等价（SGD∼MCP）。然而，反向映射Φ⁻¹是部分且丢失信息的，揭示了MCP在事务性标记、资源原语、能力协商等方面的表达力缺陷。为此，作者提出五个原则（语义完整性、显式动作边界、失败模式文档、渐进披露兼容性、工具间关系声明），并将其形式化为类型系统扩展MCP⁺，最终证明MCP⁺与SGD完全等价（MCP⁺∼=SGD）。该工作为可验证的智能体系统提供了首个形式基础，并将模式质量提升为可证明的安全属性。

信任即监控：用户信任与AI开发者行为的演化动力学

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Topic · 其他Relevance · 65

该论文探讨了用户信任与AI开发者行为之间的动态演化关系，提出信任可被视为一种监控机制，影响AI系统的开发与维护过程。

AutoSAM：基于多模态检索增强生成的SAM代码输入文件自动化生成智能体框架

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Topic · AgentRelevance · 95PDF Deep Digest

本文提出AutoSAM，一个基于多模态检索增强生成的智能体框架，用于自动化生成SAM系统热工水力代码的输入文件。该框架结合大语言模型、检索增强生成（RAG）和专用工具，能够处理PDF、图像、电子表格等非结构化工程文档，提取关键参数并生成可执行且物理一致的SAM输入文件。通过四个复杂度递增的案例（单管稳态模型、固体燃料通道、ABTR堆芯、MSRE主回路）验证，框架在结构化输入利用率达100%，PDF文本提取率约88%，图像几何信息提取完整率达100%，显著提升了反应堆建模效率并确保结果可追溯与可审计。

集体智能何时变成一场赌博？大模型中模因漂移的多智能体扩展规律

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

Topic · 其他Relevance · 85

该论文探讨了在大规模语言模型中，多智能体系统如何通过模因漂移影响集体智能的表现，并提出了相关的扩展规律，指出在某些条件下集体智能可能退化为随机结果。

ARC-AGI-3：前沿智能体的新挑战

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

Topic · AgentRelevance · 95PDF Deep Digest

ARC-AGI-3 是一个全新的交互式基准测试，旨在评估前沿人工智能在未知环境中通过探索、建模、目标推断和计划执行来获取新技能的代理智能能力。与前两代基于静态网格任务的 ARC-AGI-1 和 2 不同，ARC-AGI-3 采用回合制互动环境，要求智能体在没有明确指令的情况下自主发现机制与胜利条件。该基准强调‘行动效率’作为核心评估指标，即以最少操作次数完成任务，并与人类基线进行对比。截至2026年3月，人类可100%解决所有环境，而当前最先进AI系统得分低于1%，显示出显著的智能差距。

Vega：基于自然语言指令的自动驾驶学习

Vega: Learning to Drive with Natural Language Instructions

Topic · 具身智能Relevance · 95

该论文提出了一种名为Vega的框架，使自动驾驶系统能够通过自然语言指令进行学习和控制。该方法将语言理解与驾驶行为相结合，提升了车辆在复杂环境中的决策能力。

PixelSmile：面向细粒度面部表情编辑

PixelSmile: Toward Fine-Grained Facial Expression Editing

Topic · 其他Relevance · 65

该论文提出了一种名为 PixelSmile 的方法，旨在实现对面部表情的细粒度编辑。

自然语言智能体开发

Natural-Language Agent Harnesses

Topic · AgentRelevance · 95PDF Deep Digest

本文提出将智能体控制逻辑中的‘ harness 设计模式层’外部化为可执行的自然语言对象，以提升其可移植性、可比较性和可研究性。作者引入自然语言智能体 harness（NLAH），用结构化自然语言描述控制流程，并设计智能 harness 运行时（IHR）来解释和执行这些 harness。通过在编码（SWE-bench Verified）和计算机使用（OSWorld）基准上的实验表明，该系统具备操作可行性，支持模块组合与消融分析，并实现了代码到文本 harness 的迁移。结果显示，显式结构并不总是带来性能提升，而是重塑任务解决边界，强调 harness 设计需对齐最终评估标准。

厨房循环：基于用户规范驱动的自演进代码库开发

The Kitchen Loop: User-Spec-Driven Development for a Self-Evolving Codebase

Topic · 数据飞轮Relevance · 85

本文提出一种以用户需求规范为核心驱动的自演进代码库开发范式，通过持续收集用户反馈与行为数据，构建闭环迭代机制，实现代码库的自主优化与演进。

概率可信AI的统一记忆视角

A Unified Memory Perspective for Probabilistic Trustworthy AI

Topic · 记忆Relevance · 90

本文提出了一种从统一记忆视角理解概率可信人工智能的新框架，强调记忆机制在提升AI系统可信赖性中的作用。

只需放大：通过自回归缩放实现跨视图地理定位

Just Zoom In: Cross-View Geo-Localization via Autoregressive Zooming

Topic · 其他Relevance · 65

该论文提出一种基于自回归缩放机制的跨视图地理定位方法，通过逐步放大图像区域提升定位精度，适用于无人机与地面图像匹配等场景。

衡量什么重要——还是什么方便？：基于大模型的评分系统对无关构念因素的鲁棒性

Measuring What Matters -- or What's Convenient?: Robustness of LLM-Based Scoring Systems to Construct-Irrelevant Factors

Topic · 大模型后训练Relevance · 85

该研究探讨基于大语言模型的评分系统在评估过程中对与目标构念无关因素（如语言风格、文本长度等）的敏感性，分析其评分鲁棒性，并提出改进策略以减少偏差。

用于探测对非人型机器人民间心理归因的心理主义接口

A Mentalistic Interface for Probing Folk-Psychological Attribution to Non-Humanoid Robots

Topic · 具身智能Relevance · 85

该论文提出一种心理主义接口，用于研究人类如何对非人型机器人进行心理状态归因（如意图、信念），探讨人机交互中的认知机制与具身智能表现。

超越Via：大语言模型在学术论文中的影响分析与评估

Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

Topic · 其他Relevance · 70

本文系统分析了大语言模型在学术写作与研究中的实际影响，评估其在论文生成、文献综述和科研协作中的作用，并探讨潜在风险与伦理问题。