auto-arxiv web

LogSigma在SemEval-2026任务3：面向维度方面情感分析的不确定性加权多任务学习

LogSigma at SemEval-2026 Task 3: Uncertainty-Weighted Multitask Learning for Dimensional Aspect-Based Sentiment Analysis

Topic · 大模型后训练Relevance · 75

本文提出一种不确定性加权多任务学习方法，用于维度方面情感分析任务，通过建模任务间不确定性优化模型性能。

Chat

代理、尖峰与稀疏性：SNN超参数在硬件上的性能分析与表征

Surrogates, Spikes, and Sparsity: Performance Analysis and Characterization of SNN Hyperparameters on Hardware

Topic · 其他Relevance · 40

该论文研究了脉冲神经网络（SNN）中关键超参数对硬件性能的影响，重点分析了代理梯度、尖峰活动与稀疏性之间的权衡关系。

Chat

超越“手段”：通过透明设计的AI数据科学流程支持推理

More Than "Means to an End": Supporting Reasoning with Transparently Designed AI Data Science Processes

Topic · 其他Relevance · 65

本文探讨如何通过透明设计AI数据科学流程来增强人类推理能力，强调过程的可解释性与用户参与，而非仅将AI视为实现目标的工具。

Chat

基础模型时代的AI安全：统一视角下的全面综述

AI Security in the Foundation Model Era: A Comprehensive Survey from a Unified Perspective

Topic · 大模型底座Relevance · 95

本文从统一视角系统综述了基础模型时代下的AI安全问题，涵盖安全威胁、防御机制与评估方法，强调模型鲁棒性与可信部署。

Chat

眼动模式预测AI图像评估中的偏好与信心

Gaze patterns predict preference and confidence in pairwise AI image evaluation

Topic · 其他Relevance · 65

该研究探索了人类在成对AI生成图像评估中的眼动行为，发现特定的注视模式能够有效预测个体对图像的偏好程度以及判断时的信心水平。

Chat

NeuroVLM-Bench：面向神经系统疾病临床推理的视觉增强大语言模型评估

NeuroVLM-Bench: Evaluation of Vision-Enabled Large Language Models for Clinical Reasoning in Neurological Disorders

Topic · 大模型底座Relevance · 85

该论文提出 NeuroVLM-Bench，一个专门用于评估视觉增强大语言模型在神经系统疾病临床推理任务中表现的综合基准。研究聚焦于模型结合医学影像与文本信息进行诊断和推理的能力，涵盖多种神经疾病场景，为医疗领域大模型的应用提供评估框架。

Chat

超越众数：语言模型中的分布推理强化学习

Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models

Topic · 强化学习Relevance · 95

该论文探讨如何利用强化学习（RL）提升语言模型在生成文本时对概率分布的推理能力，使其不仅生成高频（众数）响应，还能覆盖更广泛的语义分布。

Chat

时间序列深度临床预测模型解释性实用指南：一项可复现性研究

A Practical Guide Towards Interpreting Time-Series Deep Clinical Predictive Models: A Reproducibility Study

Topic · 其他Relevance · 65

本文提出了一套实用指南，用于解释时间序列深度临床预测模型，并通过可复现性研究验证其有效性。研究聚焦于提升模型在医疗场景中的可解释性，以增强临床可信度。

Chat

向开发者学习：实现Linux大规模可靠补丁验证

Learning From Developers: Towards Reliable Patch Validation at Scale for Linux

Topic · 其他Relevance · 65

该研究探索如何借鉴开发者的行为和经验，构建可扩展的自动化补丁验证系统，以提高Linux内核补丁的可靠性和验证效率。

Chat

具有跨范式迁移性的生成对抗扰动在局部人群计数中的应用

Generative Adversarial Perturbations with Cross-paradigm Transferability on Localized Crowd Counting

Topic · 其他Relevance · 65

该论文研究了生成对抗扰动在局部人群计数任务中的跨范式迁移性，探索了对抗样本在不同模型或数据范式间的可迁移性，以提升攻击效果或鲁棒性分析。

Chat

FODMP：面向时间依赖机器人动作的运动基元快速一步扩散生成

FODMP: Fast One-Step Diffusion of Movement Primitives Generation for Time-Dependent Robot Actions

Topic · 具身智能Relevance · 90

该论文提出了一种名为FODMP的新方法，用于快速生成适用于时间依赖机器人动作的运动基元。通过一步扩散模型，显著提升了运动基元生成的效率，适用于具身智能系统中对实时性和动作连贯性要求较高的场景。

Chat

GoldiCLIP：语言-图像预训练中显式监督的平衡方法

GoldiCLIP: The Goldilocks Approach for Balancing Explicit Supervision for Language-Image Pretraining

Topic · 大模型底座Relevance · 85

本文提出 GoldiCLIP，一种在语言-图像预训练中平衡显式监督的新方法，旨在优化多模态表示学习。

Chat

通过可解释性驱动分析剖析腹主动脉瘤分割中的模型失败

Dissecting Model Failures in Abdominal Aortic Aneurysm Segmentation through Explainability-Driven Analysis

Topic · 其他Relevance · 65

该研究聚焦于医学图像分割任务中深度学习模型的失败案例，特别是腹主动脉瘤（AAA）分割。通过引入可解释性技术，系统分析模型在复杂解剖结构或噪声干扰下的错误模式，识别关键失败因素如边界模糊、病灶变异等。研究旨在提升模型鲁棒性与临床可信度，为医疗AI的可靠部署提供依据。

Chat

从不可测到可测：大语言模型时代的蜕变测试

From Untestable to Testable: Metamorphic Testing in the Age of LLMs

Topic · 其他Relevance · 65

本文探讨了蜕变测试（Metamorphic Testing）在大语言模型（LLMs）背景下的应用，旨在解决传统测试方法在面对复杂、非确定性模型输出时的局限性。通过识别和验证输入-输出之间的蜕变关系，该方法提升了测试的可行性和有效性。

Chat

针对小语种医疗转录的微调大模型评估与验证数据集研究

Evaluating Fine-Tuned LLM Model For Medical Transcription With Small Low-Resource Languages Validated Dataset

Topic · 大模型后训练Relevance · 85

该论文提出了一种针对低资源小语种医疗转录任务的微调大语言模型评估方法，并构建了一个经过验证的数据集，用于评估模型在真实医疗场景中的转录准确性和语言适应性。

Chat

SlopCodeBench：长时程迭代任务中编码代理性能退化基准测试

SlopCodeBench: Benchmarking How Coding Agents Degrade Over Long-Horizon Iterative Tasks

Topic · AgentRelevance · 95PDF Deep Digest

Chat

稀疏OHC推荐中的伪标签NCF：双表示学习与可分性精度权衡

Pseudo Label NCF for Sparse OHC Recommendation: Dual Representation Learning and the Separability Accuracy Trade off

Topic · 其他Relevance · 65

该论文提出一种基于神经协同过滤（NCF）的推荐方法，利用伪标签技术缓解稀疏OHC（在线健康社区）数据下的推荐难题。通过双表示学习机制，模型同时学习用户和项目的显式与隐式特征，并探讨了在提升类别可分性与保持推荐精度之间的权衡问题。

Chat

作为可证伪有限尺寸转变的顿悟现象

Grokking as a Falsifiable Finite-Size Transition

Topic · 机器学习框架Relevance · 75

该研究将神经网络训练中的‘顿悟’（grokking）现象建模为一种可证伪的有限尺寸相变，提出其具有明确的临界行为和标度律，可通过实验验证。

Chat

分布式系统中的去中心化任务调度：一种深度强化学习方法

Decentralized Task Scheduling in Distributed Systems: A Deep Reinforcement Learning Approach

Topic · 强化学习Relevance · 90

该论文提出了一种基于深度强化学习的去中心化任务调度方法，用于优化分布式系统中的资源分配与任务执行效率。

Chat

几何是否足够？基于地标的眼动估计评估

Is Geometry Enough? An Evaluation of Landmark-Based Gaze Estimation

Topic · 其他Relevance · 60

该论文评估了基于几何特征（如面部或眼部地标）的眼动估计方法的有效性，探讨仅依赖几何信息是否足以实现高精度的视线方向预测，并分析其局限性与改进方向。

Chat