深度学习的性能高度依赖于大规模高质量标注数据,然而,在实际应用中,目标领域的标注数据往往稀缺且存在域偏移(domain shift)问题,导致模型泛化性能显著下降。为此,领域自适应方法受到广泛关注,其核心是通过迁移源域知识提升目标域模型性能。尽管现有方法在跨域任务中取得部分成果,但仍存在以下挑战:(1)标注稀缺与域偏移耦合问题:目标域标注数据稀缺导致模型难以学习判别性特征,而域偏移会引发负迁移现象。在类别不平衡场景中,模型倾向于过拟合多数类,进一步降低对少数类的分类性能;(2)伪标签噪声累积问题:基于有限标注数据生成的伪标签易受域偏移和类别分布差异的影响,导致噪声累积。这种噪声会误导模型优化方向,降低目标域性能。因此,在标注资源有限的情况下,如何高效生成高精度伪标签已成为亟待解决的关键问题。 本文聚焦于领域自适应在新场景下所面临的挑战,提出了一系列针对性的解决方案与算法设计,并通过实验验证了其有效性。主要贡献包括以下两个方面: 基于Dirichlet的局部不一致性方法(DBLI):针对主动域适应中的样本选择问题,提出了一种基于Dirichlet分布的局部不一致性方法。该方法通过构建Dirichlet证据深度学习框架,对类别概率施加Dirichlet先验分布,将模型输出转化为概率单纯形上的分布,综合考虑各种可能的预测情况,降低误校准风险。同时,设计了两阶段样本选择策略,将样本的Dirichlet量化的预测不确定性与样本的局部不一致性结合起来。此外,引入同胚特征对齐机制,利用可逆神经网络构建源域与目标域的独立映射空间,在保留域内结构的同时,实现了跨域特征对齐,从而有效缩减了域间差异。 基于概率空间的双向概率校准对齐方法(BPCA):针对跨域场景下因类别分布不均衡导致的伪标签噪声累积问题,提出了一种基于概率空间的双向概率校准对齐方法。该方法通过构建双向概率校准机制,从概率空间的角度优化模型对目标域样本的预测可靠性。具体而言,正向概率校准模块巧妙结合源域的有监督信息与目标域有限标注数据,并基于KL散度构建概率分布校准模型,实现跨域特征空间的对齐。在此基础上,反向概率校准策略通过分析目标域未标注数据的潜在分布特性,利用核密度估计构建预测概率优化函数,显著提升模型对目标域样本不确定性的量化精度。为抑制伪标签噪声传播,本方法创新引入动态基尼不纯度校准机制,通过构造与类别置信度紧密相关的修正因子,建立伪标签质量评估函数,实现噪声伪标签的自适应过滤与校准。此外,类感知对比学习模块通过构建类别原型引导的对比损失函数,增强模型对少数类特征的鉴别能力,有效缓解类别不平衡导致的特征学习偏差。 为评估所提出的DBLI和BPCA方法的有效性,本文设计并实施了多组实验,包括对比实验、消融实验等。实验结果表明,DBLI算法通过量化样本的局部不一致性,可以筛选出对模型优化具有显著信息增益的目标域样本,同时,在同胚空间中实现域对齐,显著提升了模型的可靠性。在Office-31数据集上,与主动领域适应算法相比,DBLI算法的准确率提高了4.3%。而BPCA算法则有效缓解了类别不平衡问题,并大幅减少源域异常类别的负迁移影响,同时降低了伪标签的噪声干扰,从而提升了模型在目标域上的泛化能力。在更具挑战性的Office-Home数据集中,BPCA算法的性能进一步提升了0.6%,这些结果充分证明了所提出方法的有效性和优越性。 摘要译文