上海交通大学智能计算研究院师生9篇工作被国际顶会ICML2026录用 发布时间:2026-05-25
近日,国际会议ICML 2026(International Conference on Machine Learning)公布论文录用结果。上海交通大学智能计算研究院师生共有9篇研究成果入选,研究主题覆盖量子计算、大模型优化建模、大模型推理、混合整数规划、在线决策、可微优化、差分隐私、智能体记忆机制以及AI 学术伦理等多个前沿方向。
ICML是机器学习与人工智能领域国际顶级学术会议之一,也是中国计算机学会CCF推荐的A类国际会议。ICML2026将于 2026 年7月6日至11日在韩国首尔COEX Convention & Exhibition Center 举行。
1、题目:Data-driven Mixed Integer Optimization through Probabilistic Multi-variable Branching
作者:Yanguang Chen, Wenzhi Gao, Wanyu Zhang, Dongdong Ge, Huikang Liu, Yinyu Ye
摘要:本文提出了一个预训练混合整数优化框架PreMIO,通过结合离线数据集与机器学习模型来加速在线MIP求解。PreMIO的核心是一个"多变量基数分支"过程,使用数据驱动的超平面对MIP可行域进行划分;该过程可以无缝集成到现代 MIP求解器中,仅需两行代码即可实现。我们基于集中不等式给出了完整的理论保证——离线数据集的规模直接控制着分支正确性的概率。相比已有的ML+MIP方法(要么实现复杂、要么缺乏理论支撑),PreMIO简洁、灵活、可证明、可解释。在经典OR基准数据集和真实工业实例上的数值实验均验证了框架的有效性。
2、题目:Matrix-Free GPU Semidefinite Programming for Quantum Ordered Search at the k=6 Frontier
作者:Yancheng Wu, Huikang Liu, Wenzhi Gao, Yuexin Su, Tongyang Li, Dongdong Ge, Yinyu Ye
摘要:量子计算为有序搜索问题(OSP)的理论常数带来了显著提升效果。经典构造方式为k次查询量子有序搜索算法,该算法可对包含N个元素的有序列表进行精确搜索,并将查询复杂度优化至原来的k/log2(N)倍。当k取值更大时,可通过求解最大容许列表规模N⋆获得更优的常数倍性能提升,该求解任务可建模为结构化半定规划(SDP)问题。但当k>6时,求解此类半定规划问题将变得计算上难以实现,原因是现有中央处理器与图形处理器求解器需要显式构建规模过大、难以承载的约束矩阵。本文提出一种无矩阵的图形处理器半定规划框架,借助定制CUDA内核实时求解有序搜索问题中高度结构化的约束条件,将内存复杂度从二次复杂度降至线性复杂度,同时将性能瓶颈从内存占用转移至计算环节。基于该框架,我们精确界定了当k=6时最优列表规模满足90000≤N⋆<94000,并将查询系数的已知最优上界从0.390优化至0.365。此外,本文通过无矩阵最小特征值估计构造严格的对偶不可行性证明,进一步验证了所得结果的有效性。
3、题目:A Two-Layer Framework for Joint Online Configuration Selection and Admission Control
作者:Owen Shen, Haoran Xu, Yinyu Ye, Peter Glynn, Patrick Jaillet
摘要:本文研究了"在线配置选择 + 准入控制"问题,该问题广泛出现在LLM服务、GPU调度和收益管理等场景中。在长度为T个时段的规划周期内,我们考虑每个时段内做出决策的两层框架:第一层中,决策者从K种配置(如量化、并行策略、票价等级)中选择其一,由此诱导出到达请求的"奖励-资源"联合分布;第二层中,决策者观察到具体请求后再决定是否接受。该框架的基准设计需要谨慎处理。我们引入了一个考虑切换成本的"流体预言"(switching-aware fluid oracle),可证地刻画任意在线策略的上界;并将基准评估写成 max-min 形式,借助原始-对偶最优性条件(涉及均衡、可行性与互补性)刻画其鞍点结构。在此基础上,我们设计了SP-UCB-OLP算法——求解一个乐观鞍点问题——并证明其取得Õ(√(KT)) 的悔界(regret)。
4、题目:A Penalty Approach For Differentiation Through Black-box Quadratic Programming Solvers
作者:Yuxuan Linghu, Zhiyuan Liu, Qi Deng
摘要:通过求解二次规划 (QP) 问题进行微分是可微优化中的核心问题。大多数现有方法通过Karush-Kuhn-Tucker (KKT) 系统进行微分,但其计算成本和数值鲁棒性在大规模问题上会下降。为了解决这些局限性,本文提出了dXPP,一个基于惩罚的微分框架,它将QP求解与微分过程解耦。在求解步骤(前向传播)中,dXPP与求解器无关,可以利用任何黑盒 QP求解器。在微分步骤(后向传播)中,我们将解映射到一个光滑的近似惩罚问题,并通过该近似惩罚问题进行隐式微分,仅需求解一个关于原始变量的规模小得多的线性系统。这种方法绕过了显式KKT微分固有的困难,并显著提高了计算效率和鲁棒性。我们在各种任务上评估了dXPP,包括随机生成的QP问题、大规模稀疏投影问题以及一个真实的多期投资组合优化任务。实验结果表明,dXPP与基于KKT的微分方法相比具有竞争力,并且在大规模问题上实现了显著的速度提升。
5、题目:Mind the Gap: Mixtures of Gaussians in Approximate Differential Privacy
作者:Huikang Liu, Aras Selvi, Wolfram Wiesemann
摘要:本文设计了一类新的加性噪声机制,在敏感度已知的实值标量查询上满足 (ε,δ)-差分隐私(DP),重点关注中等与低隐私强度区间。我们将这类机制称为"混合机制"(mixture mechanisms):通过混合多个共享方差、但均值与权重不同的高斯分布构造而成。所得分布可解释为:一个零均值高斯(即解析高斯机制中的形式)与若干均值依赖于查询敏感度的高斯分布的凸组合。我们给出了满足 (ε,δ)-DP 所需方差的紧致条件,并提供了高效计算这些条件的算法。相比解析高斯机制,本文机制能显著降低期望噪声幅度(l1 损失)与方差(针对零均值分布的 l2 损失)。在我们关注的低隐私区间,本文机制接近最优——几乎完全弥合了解析高斯机制相对最优值的差距。
6、题目:MemDecoder: Enhancing Test-Time Compute for LLM Agents via Reinforced Memory Decoding
作者:Haoran Yin, Chenyu Zhou, Wei Zhu, Yuhua Jin
摘要:智能体记忆——即利用过往案例、外部知识或元经验对大型语言和视觉语言模型进行条件化——已成为提升推理速度的关键机制。然而,现有方法大多依赖于启发式检索或基于LLM的代价高昂的重排序,而没有显式地学习如何为给定查询构建记忆。为了克服这些局限性,本文提出了MemDecoder,一个用于自适应智能体记忆选择的学习框架。MemDecoder将记忆构建问题建模为检索到的候选集上的自回归索引解码问题,并使用轻量级Transformer编码器-解码器生成有序的记忆元素序列。这种设计无需生成文本示例即可实现高效的、任务感知的少样本推理。MemDecoder可以通过监督式微调和带有可验证奖励的强化学习进行训练。此外,我们还引入了一种排序感知的组相对策略优化(Group Relative Policy Optimization)变体,该变体利用响应组内的成对比较来提供更丰富的学习信号。在视觉问答、数学推理和科学问答基准测试中的实验表明,MemDecoder始终优于先前的智能体记忆选择方法,证明了MemDecoder的架构设计和学习算法的优势。
7、题目:OPT-Engine: Benchmarking the Limits of LLMs in Optimization Modeling via Complexity Scaling
作者:Yitian Chen, Dongdong Ge, Cheng Cheng, Yinan Sun, Zi Ling
摘要:OPT-Engine 是一个面向大语言模型(LLM)优化建模能力的可扩展基准框架,支持难度可控、规模可缩放的评测,覆盖运筹学中10个经典任务(5个线性规划+5个混合整数规划)。基准聚焦两个核心问题:当任务复杂度被推到现有基准之外的"分布外"区域时LLM是否仍具鲁棒性,以及在求解流程中性能瓶颈究竟出现在哪一环节。分析表明:在复杂度持续上升时,借助外部求解器的"工具集成式推理"表现出显著更高的鲁棒性,纯文本推理则会触及天花板;同时,约束的自动化建模是当前LLM优化建模能力的主要瓶颈。
8、题目:Online Linear Programming for Multi-Objective Routing in LLM Serving
作者:Zixi Chen, Yinyu Ye, Zijie Zhou
摘要:我们研究大语言模型服务中的在线路由问题:请求按序到达,必须在严格的批大小(batch size)与KV缓存约束下,被分派到并行的解码工作单元(decode workers)上。业界广泛使用的路由启发式方法存在两点不足:一是没有与明确的服务等级目标(SLO, Service-Level Objectives)挂钩,二是对延迟—吞吐量的权衡缺乏精细控制。针对这些问题,我们提出一个多目标优化框架,将路由建模为一个带有可解释决策收益的在线线性规划问题。在此基础上,我们采用一种高效的竞价控制策略(bid-price control policy):当某个请求的SLO加权收益超过其影子价格(shadow price)时,便准入该请求。为满足毫秒级的决策时延要求,我们设计了一种带热启动的投影一阶更新方法,能够在线追踪不断演化的对偶影子价格,并具有可预测的运行时开销。我们将该路由器集成到Vidur模拟器中,结果表明:在多种SLO场景下——包括端到端延迟、首token延迟(TTFT)、吞吐量以及长尾性能——本方法相较标准基线均取得显著改进。
9、题目:Position: Academic Conferences are Potentially Facing Denominator Gaming Caused by Fully Automated Scientific Agents
作者:Rong Shan, Te Gao, Hang Zheng, Yunjia Xi, Jiachen Zhu, Zeyu Zheng, Yong Yu, Weinan Zhang, Jianghao Lin
摘要:在投稿量指数级增长的背景下,顶级AI会议长期维持相对稳定录用率的隐性政策,引入了一个关键的结构性脆弱点。本观点论文刻画了一种新的系统性威胁——智能体分母博弈(Agentic Denominator Gaming):恶意主体部署 AI 智能体,批量生成并投递大量"看起来合理但实际质量低下"的论文。其关键之处在于,恶意主体的目标并非让低质量论文被录用,而是借此放大投稿分母、压垮整体评审能力。在录用率相对稳定的前提下,这种"稀释"会系统性地提升某一组特定的高质量目标论文的录用概率。我们分析了该威胁的现实可行性及其更广泛的后果——包括评审者倦怠加剧、评审质量下降,以及自动化"论文工厂"产业化等趋势——并提出与评估了一系列缓解策略。我们主张:持久的防护需要系统层面的政策与激励改革,而不能仅依赖技术检测。


