摘要
超参数优化是自动机器学习领域中的关键技术之一,旨在通过实现超参数调优的自动化,减轻机器学习从业者的工作负担。在机器人系统中,超参数优化对感知模块的神经网络训练、控制器的参数整定以及多模态数据融合算法的性能提升具有关键作用。然而,尽管该技术已取得显著进展,但其效率问题仍是限制其广泛应用的主要瓶颈。近年来,元学习技术的迅猛发展为提升超参数优化的效率开辟了新路径,该技术在机器人系统需要快速适应动态环境及新任务场景时展现出独特优势。元学习的核心在于使模型能够从大量先验任务中自动吸收并应用相关知识,从而显著提升其对未知任务的学习效率。基于此,众多研究者正致力于探索如何利用元学习技术来增强超参数优化的搜索能力。本文旨在系统梳理相关研究进展:首先对超参数优化问题进行形式化定义,并综述当前主流方法;其次,总结基于元学习理论的超参数优化策略,并分析当前主流元学习算法的特点;再次,介绍超参数优化领域的基准数据集,并对比分析主流方法在其上的实验性能;最后,对超参数优化技术的未来发展趋势进行展望。
Abstract
Hyperparameter optimization (HPO) is a pivotal technology in Automated Machine Learning, aiming to automate the tuning process and alleviate the burden on practitioners. In robotic systems, HPO plays a critical role in enhancing neural network training for perception modules, controller parameter calibration, and performance optimization of multimodal data fusion algorithms. However, despite significant progress, efficiency remains the primary bottleneck limiting its widespread adoption. Recent advances in meta-learning have opened new avenues for improving HPO efficiency, particularly demonstrating unique advantages in robotic systems that require rapid adaptation to dynamic environments and novel task scenarios. This technique enables models to automatically assimilate and apply knowledge from prior tasks, thereby improving learning efficiency for unseen tasks. Currently, researchers are actively exploring meta-learning techniques to enhance HPO search capabilities. In this paper we aim to provide a systematic overview of relevant research. First, we provide a formal definition of the HPO problem and review state-of-the-art methods. Subsequently, we systematically summarize meta-learning-based HPO strategies and analyze prevailing meta-learning algorithms. Furthermore, we introduce benchmark datasets in HPO research and compare the performance of mainstream methods. Finally, we discuss future research directions in hyperparameter optimization technology.
近年来,机器学习在机器人感知、规划与控制等领域展现出广泛的应用潜力,显著提升了系统的适应性与泛化能力。然而,构建高效的机器学习流程通常依赖大量专业知识和人工干预,包括问题定义、数据预处理、特征工程、模型训练与调优等环节,门槛高、成本大,限制了其在众多实际场景中的推广。
自动机器学习(AutoML)旨在通过自动化手段降低机器学习流程对人类专家的依赖,其核心任务之一是实现高效的超参数优化(hyperparameter optimization,HPO),以自动寻找性能优异的模型配置。本文重点关注基于元学习(meta learning)的超参数优化方法,该类方法通过复用先前任务中的优化经验,指导新任务的搜索过程,从而显著提升搜索效率。
传统超参数优化方法,如贝叶斯优化和进化算法,虽已在许多场景中得到应用,但在高维配置空间和有限评估预算下仍面临效率瓶颈。元学习通过“学会学习”的机制,能够从一系列相关任务中提取先验知识,用于快速适应新任务,为超参数优化中的配置搜索问题提供了新的解决思路。
元学习技术[1]亦称“学会学习”(Learning to Learn),作为机器学习领域的前沿研究框架,旨在使模型通过大量先验任务获得学习能力。这种能力使模型能够自动吸收先验知识,并用以指导新任务中的快速学习,即解决“如何学习”的问题。因此,众多研究者正尝试应用元学习技术提升自动机器学习的搜索效率。
元学习概念自1987年由J.Schmidhuber首次提出以来[2],便吸引了众多学者的广泛关注。Bengio等[3-4]研究者进一步阐述了元学习在生物学上的合理性,并提出了相应的学习规则。在此后的研究中,Schmidhuber等[5-6]深入探讨了自参照系统(self-referential systems)与元学习的相关性。Thrun等在文献[7]中首次引入了“Learning to Learn”这一术语,作为元学习的同义词,并对该领域的现有文献进行了系统的探索与分析,以期界定元学习的普遍含义。1991年,文献[8]提出了采用梯度下降和反向传播算法来训练元学习系统的方法。Schweighofer等[9]首次将元学习应用于强化学习领域,而Larochelle等[10]则首次将其应用于少样本学习场景。至2012年,随着深度学习技术的兴起,元学习思想在现代研究中被重新提出,并由此开启了现代元学习技术的新篇章。本文将对基于元学习理念的自动机器学习技术及当前元学习算法的研究进展进行详尽的分析与综述,并就未来研究中值得关注的方向提出初步的探讨。
1 超参数优化问题
超参数优化问题的目标是针对特定机器学习模型A,在特定任务T(数据集D)上选择能够使其性能达到最优的模型的超参数配置λ*。超参数配置是指机器学习模型在训练前,需要设置的一系列参数,不同于模型训练后得到的模型内部参数值。如,神经网络模型隐藏层数目、每层节点数、激活函数、训练时学习率就是神经网络模型的超参数。
超参数优化问题可以形式化地描述如下:A代表需要优化的机器学习模型;Λ表示模型A的超参数搜索空间;假设超参数λ是一个N维向量,其中每个维度λi对应一个搜索空间Λi,这些空间可以是离散的也可以是连续的,即Λ=Λ1×Λ2×···×ΛN;Aλ表示模型A结合了特定的超参数配置λ。超参数优化算法的目的是找到一个配置 λ*,使得模型在特定数据集上的性能达到最优,即
(1)
式中L(Aλ,Dtrain,Dvalid)表示模型A与所选择超参数配置λ在训练集Dtrain上训练后,在验证集Dvalid上的损失函数。通过最小化该损失函数最终得到最优超参数配置λ*。
超参数优化面临的难点包括:1)由于难以直接获取超参数配置与模型性能之间的映射关系,传统基于梯度的优化方法不再适用,使得该问题成为一个黑盒优化问题;2)在高维的超参数搜索空间中进行搜索时,如果超参数数量众多,探索的难度和效率都是挑战;3)优化过程中需要对超参数配置进行性能评估,若模型A结构复杂或者数据集D庞大,每次评估都非常耗时。
至今,已有多种方法被提出用以解决超参数优化的挑战,本节将对这些主要方法进行简要介绍。
1.1 基础搜索算法
基础搜索算法不对搜索空间做任何预设假设,而是平等地评估搜索空间内的每一组超参数配置。在这类算法中,网格搜索和随机搜索尤为常见。网格搜索(grid search)作为一种直观且简易的超参数优化手段,通过遍历所有潜在的配置组合,旨在寻找性能较优的超参数设置。尽管网格搜索在小规模搜索空间中表现自然且有效,但其效率却因维度灾难而受限,导致在高维度空间中可能变得不切实际甚至失效。相对而言,随机搜索(random search)提供了一种替代方案,其在给定的资源限制下,随机选择超参数配置进行评估。研究显示,在关键超参数所占比例超过5%的情况下,随机搜索的效率可能反超网格搜索[11]。与网格搜索相比,随机搜索还具备并行处理和高灵活性的显著优势[11]。然而,随机搜索在面对大规模优化任务时,由于缺少有效的策略引导,存在陷入局部最优而无法全局优化的风险。
1.2 基于贝叶斯优化算法
贝叶斯优化[12-13](bayesian optimization)是一种针对高计算成本目标函数极值求解的有效方法。其核心原理在于结合目标函数f(x)的先验分布与历史样本信息估计其后验概率,并以此推断函数f(x)的最大值。选取函数f(x)的最大值依赖于一个标准,该标准通过效用函数u,亦称采集函数(acquisition function)来实现。该函数u指导选择下一个采样点,目的在于最大化期望效用(maximum expected utility)。在搜索采样空间时,采集函数需平衡探索(exploration,即在未知区域进行采样)与利用(exploitation,即在已知高均值区域进行采样)两个方面[14],这有助于减少必要的函数评估次数。此外,当目标函数存在多个局部最优解时,采用此策略可提升整体性能。后验分布函数,亦称代理模型(surrogate model),在超参数优化问题中,通过已采样数据建立超参数配置与算法性能间的关联。
在贝叶斯优化算法中,常采用高斯过程构建代理模型,例如Spearmint算法[15]。然而,该方法在模型更新时计算成本较高,因此更适用于低维搜索空间的优化问题,并在这类问题上展现出竞争力。面对复杂的高维问题,出现了多种改进方法,如SMAC(sequential model-based algorithm configuration)[16]和TPE(Tree-structured parzen estimator)[17],研究者采用树模型来构建代理模型。 SMAC算法利用随机森林作为代理模型,而TPE 则采用Parzen密度树作为条件概率的代理模型。研究表明[11,16],这3种基于贝叶斯优化的方法在超参数优化任务上均能实现良好的性能。
1.3 基于进化算法的优化算法
基于进化算法的超参数优化方法是自动机器学习领域一类重要的优化技术,其通过模拟自然进化机制在复杂搜索空间中寻找高性能配置。该类方法主要可分为遗传算法和进化策略两大分支,其核心思想是维护一个候选解集合( 称为“种群”),并通过选择、变异、交叉等操作迭代地改进种群质量,从而逐步逼近最优超参数配置。
在众多进化算法中,协方差矩阵自适应进化策略(covariance matrix adaptation evolutionary strategy,CMA-ES)[18] 表现尤为突出。该算法通过构建多元高斯分布对超参数空间进行建模,并根据候选配置的性能反馈动态调整该分布的均值与协方差矩阵,实现对搜索方向的自适应引导。这一过程模拟自然选择机制,逐步繁衍性能更优越的超参数后代。近期研究已证实[18],CMA-ES在多个基准任务中的优化效果均优于传统贝叶斯优化方法,已成为超参数优化研究中广泛认可的基准算法之一。
1.4 其他优化算法
除前述的超参数优化技术,基于多臂老虎机(bandit)的方法亦提供了一种前沿的解决策略,如Hyperband[14,19]和BOHB[20]。Hyperband通过将超参数优化问题视为一种纯粹的探索性多臂老虎机问题,尤其在深度学习模型的优化中展现出良好的性能。然而,由于缺乏策略性引导,Hyperband在高效搜索最优超参数配置方面存在局限。为弥补这一不足,BOHB提出了一种融合了贝叶斯优化与Hyperband优势的方法:在优化初期采用Hyperband的低保真度(low fidelities)评估,以提高效率;而在后期则切换至贝叶斯优化,以确保获得更优的结果。
其他技术路线也为超参数优化提供了独特视角。基于梯度的超参数优化方法[21]利用前向模式和后向模式计算验证集上关于超参数的梯度,以此优化超参数。文献[22]则采用非贪婪的超参数共享前向模式微分方法,这种方法能够在模型训练完全收敛前更新超参数,但仅适用于目标函数可微分的情况。此外,基于强化学习的方法[23]通过将超参数优化问题形式化为马尔可夫决策过程,由智能体学习选择超参数的策略,该方法在OpenML平台的大规模实验中展现了显著优势。
2 基于元学习的超参数优化方法
超参数优化的核心挑战在于如何高效地搜索到最优模型配置。为提高搜索效率,众多研究聚焦于基于元学习的方法,该类方法通过从历史任务中提取先验知识,以指导新任务的配置搜索过程,从而显著提升优化速度。此类方法的基本假设是:在面对结构相似的任务或数据集时,相似的超参数配置或搜索策略有望取得相近的性能表现。
基于上述假设,基于元学习的超参数优化方法通常包含两个核心阶段。1)任务结构相似性度量:该阶段旨在评估不同任务间的结构相似性。常用的方法包括分析模型在不同任务上的评估指标(如最终准确率、训练耗时)、学习曲线动态,以及基于元特征(meta-features)等可量化任务属性。元特征作为刻画任务结构的关键描述符,用于识别具有相似特性的任务集合。2)元知识的提取与迁移:在识别出结构相似的任务组后,系统从中提取元知识——通常表示为优化策略、性能模型或配置先验等。该知识随后被用于指导新任务的配置搜索过程,以实现更高效的优化。
需要指出的是,现有方法大多依赖于人工设计的元特征体系、相似性度量准则以及元知识表示形式,其在泛化能力和自动化程度方面仍存在一定局限。下文将分别对这两个阶段的研究现状与典型方法进行详细综述。
2.1 任务结构相似性判断准则研究现状及其特点
元学习策略的有效性建立在一个核心假设之上:在结构相似的任务上采用相似的机器学习流程,往往能够获得相近的性能表现。为评估任务之间的结构相似性,需借助能够刻画数据集特性的元特征。现有研究通常将元特征划分为以下3类:基于模型评估的性能指标、基于任务本身的属性特征,以及基于学习过程的动态曲线特征。下文将分别对这3类元特征进行详细阐述。
2.1.1 模型评估性能
模型评估性能特征的核心作用在于通过任务的性能评估结果来识别任务间的结构相似性。此类方法的一般流程可概括为:首先,定义所有可能的配置集合λi∈Λ,其中Λ代表配置空间,该空间可以是离散的、连续的或混合类型的;接着,定义历史任务集合为Tj∈T。历史任务的性能评估结果构成集合P,其中pi,j∈P表示在任务Tj上对配置λi进行评估后的性能结果,pi,j=P(λi,Tj)。评估方法P可能包括模型在验证集上的准确性等模型评估技术,例如交叉验证。
对于新任务Tnew,设Pnew为已知评估结果的集合,即pi,new∈Pnew。本方法的目标是为新任务Tnew推荐最佳的配置λ*。这通常涉及基于历史任务的性能数据P,并结合Pnew来为新任务推荐最优配置。
2.1.2 任务属性特征
判断任务结构相似性的核心在于提取能够有效描述任务特征的信息。研究者通过探索多样化的方法来解决这一问题,其共同之处在于挖掘影响模型最终性能的数据集属性。目前,任务属性特征的提取方法主要归纳为以下6类。
1)简单方法:这类方法从数据集中提取基础的元特征[24-25],亦称为通用元特征(general meta-features)[26]。如样本数量、属性数量、类别数量等,这些特征反映了数据集的基本属性,且提取过程计算成本较低,属于最易于实现的元特征类别。
3)信息理论特征:源自信息理论领域的元特征,旨在捕获数据集中的信息量,通常基于熵的概念进行计算,多用于分类属性和表征分类问题[30-31]。例如,属性熵(attribute entropy)、联合熵(joint entropy)等。
4)基于模型的特征:在模型训练过程中提取的元特征,以决策树模型为典型代表[32-33]。这类特征通过模型的复杂性来反映数据集的特性,如叶子数量、节点数量、树形结构等。除了决策树,K最近邻(K-nearest neighbor)等其他模型也可用于此类特征的提取[34-35]。
5)地标方法(land-marking):利用简单快速学习算法的性能指标来描述数据集的元特征[36-39]。这些算法应具有不同的性能偏差,且能够以较低的计算成本获取所需信息。如决策树模型中的最佳节点(best node)、随机节点(random node)和最差节点(worst node),它们利用单一属性的不同表现来描述模型性能。
6)其他方法:不属于前述5类的其他元特征,包括时间相关度量(time-related measures)[40]、基于概念和个案的度量(concept and case-based measures)[41-42]、基于聚类和距离的度量(clustering and distance related measures)[43-44]等。
2.1.3 学习曲线
研究表明,机器学习模型的学习曲线能够反映任务的结构特征[45-50],具体表现为模型性能随训练数据量增加而变化的趋势。基于此,若两个任务结构相似,其学习曲线应具有相近的模式。为此,相关方法通常存储历史任务的学习曲线,并通过如下方式度量任务间的相似性:
(2)
式中:下角标t为训练迭代次数;Pi,a,t为任务Ta在配置λi下经过t次迭代后的性能评估值;F为距离度量函数。在面对新任务Tnew时,可通过比较其部分学习曲线与历史曲线的相似度,筛选出最相似的K个历史任务,进而基于其学习曲线预测Tnew在不同配置下的潜在性能,从而推荐最优配置。
值得注意的是,当前方法所依赖的元特征多由专家经验定义(如统计特征、信息论特征等),虽具有可解释性强的优点,但也存在两个显著瓶颈:其一,特征的有效性严重依赖先验知识,难以保证其在新任务或异质数据集上的泛化能力;其二,固定、手工的特征组合可能无法捕捉任务间复杂、高维的非线性相似关系。因此,如何自适应地学习任务的表征并据此自动构建相似性度量函数,而非依赖人工预设,已成为该领域一个重要的发展趋势。
2.2 元知识学习在解决新任务中的应用现状与特点分析
在任务结构相似性的基础上,现有的元知识学习方法首先识别出与新任务结构相似的历史任务。随后,从这些相似任务中学习元知识,并将其应用于新任务的解决过程中。目前,元知识学习方法主要可分为两大类。
1)基于任务相似性直接推荐配置的方法:这类方法直接利用任务间的结构相似性,为新任务推荐合适的配置方案。
2)基于任务属性特征与性能关系搜索配置的方法:与第一类方法不同,这类方法深入分析任务属性特征与模型性能之间的内在联系,通过这种关系来搜索最优的配置方案。
2.2.1 基于任务相似性直接推荐配置
在超参数优化领域,基于任务相似性直接推荐配置的方法是一种直观且易于实施的策略。该方法的核心在于保留历史任务的元特征 {mfj}j≤n以及相应的配置λ,其中j表示第j个历史任务,n代表历史任务的总数。面对新任务时,通过比较新任务的元特征mfnew与历史任务的元特征{mfj}j≤n,依据特征相似度来推荐K个候选配置[51-55]。
基于上述思想衍生出两种具体的推荐策略。
1)基于模型评估结果的排名推荐。该策略首先将参数空间Λ离散化,构建有限候选配置集合{λ}。针对每个历史任务Tj,对所有配置进行性能评估,并依据特定指标(如准确率、AUC值)建立配置性能排名。通过集成各历史任务的排名信息(如计算平均排名或使用排序聚合算法),形成全局配置优先级排序。面对新任务Tnew时,直接选取全局排名前K位的配置作为推荐结果[56],并依次在新任务上验证其性能。该方法依赖历史任务中配置的相对表现,适用于任务间性能排序一致性较高的场景。
2)基于属性特征相似性的推荐。该策略通过量化任务间元特征的相似性进行配置迁移。具体而言,计算新任务特征向量 mfnew与历史任务特征向量mfj间的L1范数距离,筛选出最相似的K个历史任务,将其对应的高性能配置作为新任务的初始化推荐。例如,文献[57]采用了17个统计元特征,文献[58-59]则分别采用15个和46个经筛选的元特征(涵盖统计量与地标性能特征)。此类方法已被成功集成至Auto-Sklearn等自动机器学习框架的热启动模块中[60],通过相似任务匹配提升优化效率。
尽管基于任务相似性的推荐策略具有逻辑清晰、实现简便的优点,但其泛化能力存在明显局限。当新任务与历史任务在数据分布或结构特征上差异显著时,依赖相似性匹配的配置推荐可能无法达到预期性能,甚至导致优化过程偏离有效搜索区域。因此,该方法更适用于任务环境相对稳定或具备充足历史经验的应用场景。
2.2.2 基于任务属性特征与性能之间关系搜索配置
现有研究致力于探索任务属性特征与超参数配置性能之间的关联,并基于此指导配置搜索。给定任务元特征后,研究者采用多种回归技术预测特定任务配置的性能指标(如精度或训练时长)。早期研究多采用线性回归等方法预测离散配置的性能,并据此排序[61-62];后续工作进一步引入更复杂的模型,如文献[63]利用多层感知器提升预测精度,文献[64]则基于实例数量和特征维度,通过多项式回归预估配置运行时间。需指出的是,此类方法并未直接为新任务Tnew生成配置,而常作为热启动策略嵌入其他优化流程中。
另一类方法则更为灵活,其通过构建配置与性能之间的映射关系,并结合搜索算法为各历史任务Tj寻找最优配置。此类方法通常基于贝叶斯优化框架,并在搜索过程中引入新任务Tnew与历史任务Tj的相似度信息以调整搜索方向。在代理模型(surrogate model)的构建方面,现有研究主要分为两种思路:一是对所有历史任务进行统一建模;二是对每个任务分别单独构建代理模型,再通过相似性集成。
例如,文献[65]通过历史任务数据构建了一个代理模型S:M×Λ→R,用以预测参数配置λi在任务Tj上的性能排名。M代表4个任务属性元特征。该模型通过高斯回归将排名转化为概率分布,并基于贝叶斯优化搜索最优配置,每次评估新配置pi,new后对代理模型进行更新。文献[66]则提出一种局部建模方法,仅选取与Tnew相似的历史任务构建贝叶斯代理模型,任务相似度基于三元特征向量的欧氏距离度量。
然而,基于全局历史数据构建统一代理模型的方法在可扩展性上存在明显局限。由于此类方法常采用高斯过程(gaussian process)进行建模,其模型更新的计算复杂度随样本数量n呈O(n3)增长。随着任务和配置评估次数增加,计算开销将急剧上升,限制其在大规模场景下的应用。
在文献[67]提出的方法中,贝叶斯优化算法通过代理模型构建历史任务Tj与配置性能之间的映射关系,定义为:
(3)
式中pi,j表示配置λi在任务Tj上的性能评估结果。该方法旨在从各历史任务的代理模型中提取元知识,并将其迁移至新任务Tnew,以实现更高效、精准的采样。具体地,新任务的代理模型被构建为各历史代理模型的加权组合:
(4)
式中:Sj为基于历史任务j建立的代理模型;wj为对应权重,其值与任务Tnew和Tj之间的相似度成正比。文献[68]进一步采用Nadaraya-Watson核加权方法计算式(4)中权重值wj;任务特征通过相对地标来表征,任务间相似性则通过Epanechnikov二次核[69]进行度量。在此框架下,新任务与某一历史任务越相似,其对应代理模型在集成中所占比重越大,从而实现对目标搜索过程的有效引导。
文献[70]采用多层感知器作为代理模型,基于历史任务的元特征m(Tj)、配置λi及其性能pi,j进行训练,建立任务特征、配置与配置性能之间的映射关系,即
(5)
式中:m(Tj)为任务Tj的属性特征向量;b(Tj)为二进制指示向量(当样本属于任务Tj时取值为1,否则为0)。该模型在首层引入基于因子分解机的改进激活函数[71],旨在学习任务的潜在表示以建模任务间相似性。在面对新任务Tnew时,可依据其元特征m(Tnew)推荐潜在最优配置。
除代理模型外,采集函数(acquisition function)也被视为元知识的载体。文献[72]在贝叶斯优化框架中,将传统人工设计的采集函数替换为通过强化学习迭代优化的智能采集函数(以配置λi和历史性能pi,j为输入),实现在新任务上的有效迁移,其余优化流程保持不变。
文献[73]提出一种结合多头神经网络与贝叶斯优化的多任务学习框架。该网络学习历史任务属性的潜在表示,并将其输入至各任务专属的贝叶斯优化器Sj(λi),用于预测配置λi在对应任务上的性能pi,j。该框架能够通过前馈网络有效提取新任务Tnew的特征,支撑跨任务的配置推荐。
基于元学习的方法普遍依赖于一个核心假设:任务间的结构性相似使得从一个任务中获取的元知识能够有效地迁移至新任务。然而,该类方法仍面临3个关键挑战:如何评估任务之间的相似性、如何有效表征元知识,以及如何获取并利用该知识指导新任务的学习。当前研究多采用人工设计的策略应对上述问题,例如通过预定义的相似性度量指标、模型评估性能、人工构建的元特征或学习曲线等方式评估任务相似性;元知识也常被显式地具象化为特定形式,如贝叶斯优化中的代理模型或采集函数。此类方法虽具备可解释性,但由于引入较强的人工先验,其泛化能力与可靠性在不同任务和数据集之间常存在局限。
因此,一个重要研究方向是发展能够从数据中自动推断任务属性、学习元知识表示的方法,从而降低对显式人工定义的依赖。该方向的推进将显著提升元学习系统的自动化水平与泛化性能,进而增强自动机器学习中配置优化问题的解决效率。近年来,现代元学习研究在理论框架与算法路径上取得多项突破,为上述方向提供了有力支持。在此背景下,下文将系统梳理当前主流元学习方法。这些方法虽源于更广泛的机器学习领域,但其核心思想——使模型具备“学会学习”的能力,这可为应对前述挑战提供全新的视角与技术路径。
3 元学习算法的分类与综述
元学习作为机器学习的重要分支,其核心目标是通过从大量先验任务中提取元知识,使模型具备快速适应新任务的能力。元学习算法的形式化定义可以表述为:利用n个任务T1,···,Tn的数据,提取元知识以快速解决新任务Tnew。任务T1,···,Tn和任务Tnew分别称为元训练任务(meta-training tasks)和元测试任务(meta-test task)。通常假设所有任务采样自同一任务分布p(T),即任务间具有潜在的共性结构。
每个任务Ti对应一个数据集,其中为支撑集(support set),用于任务内适应;为查询集(query set),用于评估模型在该任务上的性能。元学习的目标是学习一组参数θ*,使得在所有任务上的期望损失最小:
(6)
式中表示由元学习器fθ基于支撑集生成的针对任务Ti的模型参数。函数fθ决定了从数据到模型参数的映射机制,其结构设计是元学习方法的核心。目前主流方法可分为3类:基于黑盒优化的方法、基于双层循环的梯度更新的优化方案、基于度量的优化方案。
1)基于黑盒优化的方法:该方法利用具有记忆功能的模型(如RNN、Transformer)对历史经验进行编码与消化,能够有效处理序列化输入。因此,其不仅适用于监督学习任务(将支撑集作为序列处理),也特别适合强化学习(处理状态-动作-奖励序列),具备良好的时序建模能力[74-77]。
2)基于双层循环的梯度更新方法:通过双层循环优化方法获得特定于任务的初始参数。该方法具有模型无关性,因此理论上可应用于任何通过梯度下降法求解的问题,包括监督学习和强化学习,但其在监督学习中的应用更为成熟和广泛[78-80]。
结合了元学习的强化学习算法被称为元强化学习算法,其优势在于能够显著减少深度强化学习所需的样本量。元强化学习算法不仅能够快速适应新任务,而且能够更智能地进行探索,避免无效的动作空间,并迅速获取有用的元知识表征。
3.1 基于黑盒优化的方法
考虑任务Ti,其训练集为。黑盒优化方法的工作流程可以概括为图1所示步骤。首先,记忆网络fθ对训练集进行编码,生成隐藏状态hi,该状态蕴含解决当前任务所需的元知识。随后,基于hi与元学习模型中的全局共享θg生成任务特定参数φi。当面对新任务时,可直接利用已学习的隐藏状态hi进行推断,而无需显示理解fθ的内部机制。由于参数φi由网络直接输出,且不依赖于模型内部结构的显示假设,该方法被称为黑盒优化。其优势在于其能够快速适应新任务,同时降低对模型内部细节的依赖,从而提升算法的通用性和灵活性。
黑盒优化方法的训练过程通常分为多个元训练周期(meta-episode),其结构如图2所示。每个元训练周期专注于单一任务Ti,并由多个episode构成。在同一元周期内,记忆网络的隐藏状态hi保持连续,不需在episode间重置。模型参数θ通过迭代更新进行优化,更新规则如下:
(7)
式中:η为学习率,L为损失函数,φi表示由记忆网络 fθ为任务Ti生成的模型参数。
图1基于黑盒优化方法工作流程框架图
Fig.1Workflow of the black-box optimization
图2展示了基于黑盒优化方法的元训练过程。通过该过程,记忆网络逐渐积累跨任务元知识,从而习得解决同类问题的能力。记忆网络的架构可采用多种具备记忆能力的深度学习架构实现,例如循环神经网络(RNN,LSTM),或结合了注意力机制和时序卷积的Transformer结构[86]。
图2基于黑盒优化方法元训练过程
Fig.2Meta-training procedure of black-box optimization
在强化学习任务中,SNAIL[77]是黑盒优化方法的典型代表。该方法输入由观测、动作、奖励组成的序列数据,并在每个时间步t根据当前观测st及历史状态决策当前动作。SNAIL采用时序卷积层与注意力层交错堆叠的专用结构,能够高效利用历史经验,且对可用经验长度不设限制。黑盒优化方法具有原理简单、易于实现、模型表达能力强等优点。然而,该方法也存在一定局限性:时序网络结构通常较为复杂,优化过程具有一定挑战性,常需要多次迭代才能获得理想结果。此外,当新任务与先验任务差异显著时,该方法的泛化能力可能受限。
3.2 基于双层循环的梯度更新的优化方案
在监督学习任务中,模型通常基于大规模数据集(如ImageNet[87])进行预训练,以获得良好的参数初始化。随后,通过在目标任务上进行微调,可快速达到较高性能。这种“预训练+微调”范式的基本思想是:模型在预训练阶段捕获的通用知识,能够使其在适应新任务时实现高效迁移,从而显著提升学习效率。
基于双层循环的梯度更新优化方法借鉴了上述思想,其中模型无关元学习(model-agnostic meta-learning,MAML)[78]是代表性工作。MAML将参数生成函数fθ(·)视为一种梯度更新过程,而非黑盒映射。具体而言,任务特定参数φi通过一步梯度下降生成:
(8)
式中:α为内层学习率,L为损失函数,为任务Ti的训练集。通过该过程,模型能够根据少量样本快速调整参数。
MAML的优化目标是寻找一组初始化参数θ,使得其能够通过少量梯度步骤快速适应新任务。该目标通过双层优化实现:
(9)
式(9)展示了MAML的两层循环结构:内层循环实现特定任务适应;外层循环则基于多个任务的表现对初始参数θ进行元优化。
MAML的优势在于其强大的跨任务泛化能力,即使目标任务与训练任务差异显著,模型仍可快速适应。然而,该方法也存在如下局限:1)依赖大量任务以保障收敛稳定性;2)由于需计算二阶梯度,计算与存储开销较大;3)在深层网络中易出现过拟合现象。
为减少计算成本,文献[78]提出一阶近似方法FOMAML,通过忽略二阶梯度项实现高效优化,且性能与MAML相当。为进一步提升训练稳定性与泛化能力,Reptile算法[79]通过简化参数更新规则提高效率。文献[80]则引入正则化项机制,提出基于熵的度量以缓解任务偏差,以及基于不等式最小化的度量以减小任务间差异,从而增强模型通用性。
尽管上述研究在一定程度上缓解了计算复杂性问题,但未能从根本上解决二阶梯度带来的开销。此外,当内循环需多次梯度更新时,可能面临梯度消失或爆炸等优化难题。
3.3 基于度量的优化方案
基于度量的优化方法是一类直观且高效的元学习技术,尤其适用于少样本学习场景。其核心思想是通过距离函数度量样本间的相似性,进而辅助分类与知识迁移。Matching Networks[81-82]是该类方法的典型代表,其结构如图3所示。该方法通过嵌入函数gθ和fθ分别将已知标签样本{(x1,y1),···,(x4,y4)}及与目标样本xts映射至同一表示空间,并利用余弦相似度衡量目标样本与已知样本间的相似性,最终基于加权近邻原则实现分类。
图3Matching network内部结构
Fig.3Internal structure of matching network
Snell等[83]于2017年提出原型网络(prototypical network),该方法基于一个核心假设:每个类别在嵌入空间中存在一个代表性中心,即类别原型(prototype)。如图4所示,该方法通过深度神经网络将带标签样本映射为嵌入向量,并计算同类样本均值向量作为类别原型c1,c2,c3。原型网络借鉴聚类思想,训练目标为拉近同类样本与原型的距离,同时推远不同类别原型之间的距离。在推断阶段,新样本xts的分类依据其与各类别原型之间的欧氏距离确定。
然而,上述方法通常依赖人工设定的距离函数度量相似性,此类函数表达能力有限,且难以自适应调整以适应不同任务的数据分布,从而制约了方法的泛化能力。为提升相似性度量的自适应性与灵活性,Sung等[84]在2018年提出关系网络(relation network),其核心是引入可学习的关系模块(relation module),替代了Matching Networks和ProtoNet中固定的度量函数。该模块作为一个参数化的非线性分类器,能够从数据中自动学习样本间的关系映射,从而实现更灵活、更具判别力的相似性判断与分类决策。
图4原型网络工作原理
Fig.4Workflow of Prototypical Network
基于度量的优化方法,通过从传统距离函数向神经网络驱动的可学习度量机制的演进,体现了其思想直观、易于实现的优势,并在少样本乃至零样本学习任务中取得了显著成效。然而,该类方法在处理超参数优化时,仍存在适应性不足的局限,其度量机制与优化目标之间的对齐仍需进一步探索。
4 主流方法性能对比分析
4.1 实验设置
4.1.1 数据集
为了评估超参数优化算法的性能,本文从UCI机器学习库[88]选取多个数据集作为基准测试平台。在具体划分上,随机挑选5个数据集(Cloud,Hayes-roth,Kidney,Post-operative,Tae)用于元训练阶段,另外18个数据集作为元测试集。所选数据集在规模上具有显著差异性,样本量覆盖范围从600至359 680,以确保评估的全面性和鲁棒性。
4.1.2 对比方法
为全面评估超参数优化方法的性能,本文选取了两类代表性方法进行对比分析:一类为广泛使用的开源工具,包括Auto-sklearn和SMAC-WS;另一类为经典优化算法,包括基于贝叶斯优化的TPE和基于进化策略的CMA-ES。此外,为体现元学习在超参数优化中的应用,本文亦引入具备元学习机制的算法进行对比。
Auto-sklearn方法是基于scikit-learn的自动机器学习框架,其核心目标为求解算法选择和超参数优化联合问题。该框架支持分类与回归任务,并采用SMAC贝叶斯优化的变体作为底层优化器进行配置搜索。其元学习机制包含以下流程:在离线阶段构建包含140个OpenML[89]数据集的数据集存储库T,并提取每个数据集j的元特征向量mfj;利用SMAC评估给各个数据集上的最优配置。面对新数据集Tnew时,通过计算其元特征mfnew并与历史任务的元特征的L1距离,筛选相似任务,并将其最优配置作为贝叶斯优化的初始配置。该方法共使用38个元特征[90]进行相似性度量,涵盖统计特征与信息理论特征等类别,未包括计算代价较高的地标特征。从元学习算法机制角度,Auto-sklearn属于基于任务相似性的配置推荐策略(见2.2.1节),其通过预定义元特征度量任务间相似性,可视为一种基于度量的元学习思想在自动化机器学习系统中的工程实现。虽然未采用如原型网络等深度度量学习模型,其“相似任务对应相似配置”的基本假设与度量学习的内在逻辑一致。
SMAC-WS方法为SMAC方法的扩展版本[91],引入了元学习模块以提升优化效率。其处理新任务的流程分为两个阶段:1)INIT(warmstarting initial design)阶段:在优化开始前,通过迭代搜索从历史任务中选取高性能配置作为初始点;2)DMW(data-driven model-warmstarting)阶段:在优化过程中,采用数据驱动的模型热启动侧率,基于历史任务上构建的代理模型进行知识迁移。具体而言,同2.2节所述方法,使用贝叶斯优化算法的代理模型建立配置和配置性能之间关系Sj(λi)=pi,j,并为新任务构建如下形式的加权代理模型:
(10)
式中:Snew为新任务自身的代理模型;权重系数w0,···,wn,wnew通过在新任务Tnew上进行采样学习得到。
4.1.3 搜索空间
为评估超参数优化算法的性能,本实验选取随机森林分类器(random forest classifier,RFC)[92]与XGBoost分类器(XGboost classifier,XGB)[93]作为基准模型。这两种模型因其性能对超参数配置高度敏感,常被用作评估超参数优化方法的基准平台。实验共考察5项RFC超参数与10项XGB超参数,具体参数名称、类型及取值范围见表1和表2。所有实验均基于Scikit-learn开源工具包实现。
表1RFC的超参数搜索空间
Tab.1Hyperparameters of RFC algorithms
表2XGB的超参数搜索空间
Tab.2Hyperparameters of XGB algorithms
4.2 实验结果与分析
表3和表4汇总了基于元学习的方法与传统超参数优化方法在18个分类任务上的性能对比结果。所有数据均基于5次独立实验,每次实验进行200次配置采样。本研究从两个关键指标来评估各方法的性能:准确率和运行时间。
1)准确率。表3和表4中Acc值为各方法基于最优配置在测试集上取得的平均分类准确率和5次重复实验的标准差,用于衡量结果的稳定性。
2)运行时间。Time值为完成200次配置采样并确定最优配置所需的平均时间(单位:s)。
为全面评估方法性能,进一步进行以下统计分析:统计各方法在每项指标下进入前3名的数据集数量(图5(a)~(f)所示),以及计算各方法在每项指标上取得最优性能的数据集百分比(图5(g)~(l)所示)。
实验结果表明,在RFC与XGB两类模型上,基于元学习的方法在多数任务中均优于传统方法。具体而言,Auto-sklearn在RFC和XGB模型上分别于68.4%和73.3%的数据集中取得最高准确率,验证了其通过历史经验提升优化效果的有效性。
在时间效率方面,SMAC-WS表现尤为突出,在RFC和XGB模型上分别于66.7%和61.1%的数据集中达到最短优化时间。在XGB任务中,其平均耗时较TPE方法降低约35%,在大型数据集(样本量>105)上最高可节省50%以上时间。Auto-sklearn的时间性能亦优于传统方法,进一步说明元学习策略在保证优化质量的同时显著提升效率。
然而,元学习方法的稳定性仍存在明显局限。其在RFC和XGB模型中仅分别在11.1%和73.7%的数据集上取得最佳稳定性(即最低标准差值),表明其性能波动受模型类型影响显著,该现象源于现有方法对任务相似度度量的高度依赖。本研究涉及的元学习方法均采用基于元特征的相似性计算,若元训练任务与测试任务分布差异较大,易导致配置推荐偏离最优方向。因此,提升任务相似度度量的鲁棒性是未来改善元学习稳定性的关键方向。
综上所述,基于元学习的超参数优化方法在准确率与时间效率方面均显著优于传统方法,体现出良好的应用潜力;然而,其稳定性受任务相似度度量精度制约,仍需进一步优化以提高泛化能力。
5 总结与展望
5.1 基于元学习的超参数优化总结
当前基于元学习的超参数优化方法主要体现在以下两个方面:
1)任务结构相似性度量:依赖于既定标准,如评估性能、任务属性表征的6种方式或学习曲线。然而,这些评估方式可能无法精确捕捉不同任务(数据集)的特征;
2)元知识表征:在贝叶斯优化等方法中,代理模型或采集函数被设定为蕴含元知识的一种表征模式。但这种表征加入了过多先验假设,其泛化性仍需进一步验证。
5.2 基于元学习的超参数优化挑战
尽管当前主流的强化学习算法已取得了显著进展,但元学习算法在实际应用中仍面临诸多挑战。这些挑战主要体现在以下几个方向:
1)元知识表征的模糊性:当前的元学习算法在元知识的表征方面尚不够清晰,导致元训练过程的复杂性和不确定性,增加了算法的优化难度;
2)计算和存储效率问题:现有的元训练方法,如模型无关的元学习(MAML)算法,因需要计算高阶导数,导致其在计算量和存储量上的需求较高,限制了算法在大规模问题上的应用能力;
3)新旧任务偏差导致的性能下降:当新任务与历史任务差异显著时,模型性能急剧退化,且存在灾难性遗忘问题,削弱了跨任务迁移能力。
5.3 基于元学习的超参数优化展望
1)元知识表征模式的改进
当前主流方法中,黑盒优化将元知识编码于记忆单元(如RNN隐状态),而双层优化则将其嵌入模型参数。尽管在监督学习中表现良好,其在强化学习等复杂任务中面临表征模糊与训练不稳定的问题。未来需探索显式解耦任务推断与解决阶段的元知识框架,例如通过引入结构化记忆模块或解耦表征学习,以提升复杂环境下的适应效率。
2)面向大规模数据的高效元训练算法
双层优化方法(如MAML)因梯度计算复杂度过高,难以扩展至大数据场景。尽管隐式微分[95]等技术已尝试降低计算开销,但仍需发展轻量级元学习范式,如基于一阶近似的优化策略或分布式元训练架构,以平衡精度与效率。
3)元强化学习的泛化性提升
元学习对任务同分布的强假设在实际中常不成立,数据分布偏移易导致性能衰减。未来工作可聚焦于设计分布鲁棒的元学习算法,如通过对抗训练或域自适应技术增强模型对分布变化的适应性;引入正则化或动态网络结构,缓解持续学习中的遗忘问题;结合在线学习机制,实现增量式知识融合与策略稳定优化。

