半监督学习
词条分类:机器学习 最后更新:2025-03-05
词条介绍
简要定义
半监督学习(Semi-Supervised Learning, SSL)是一种介于监督学习和无监督学习之间的机器学习类型。它通过使用少量的标记数据作为学习过程的指导,同时从训练集中的未标记来源中提取信息,旨在以较低的成本实现较高的模型性能。
核心价值
- 减少标注成本 :通过利用大量无标签数据,可以显著减少对有标签数据的依赖,从而降低数据标注成本。
- 提高模型性能 :在有标签数据稀缺的情况下,通过引入无标签数据,可以提高模型的泛化能力和预测准确性。
- 更好地利用数据 :充分利用已有的无标签数据,避免数据浪费,提升模型的整体表现。
核心技术
- 自训练(Self-Training) :首先使用少量标记数据训练一个初始模型,然后利用该模型对未标记数据进行预测,将预测结果中置信度较高的未标记数据及其预测标签作为新的训练数据,进一步迭代学习。
- 协同训练(Co-Training) :使用多个模型互相学习,每个模型使用不同的特征子集进行训练,然后通过交换预测结果来互相扩充训练数据。
- 图半监督学习(Graph-Based Semi-Supervised Learning) :通过构建数据的图结构,利用图的连通性和相似性来传播标签信息,实现对未标记数据的标签预测。
- 伪标记(Pseudo-Labeling) :与自训练类似,先用标记数据训练模型,然后对未标记数据进行预测,将预测结果作为伪标签,与原始标记数据一起重新训练模型。
- 一致性正则化(Consistency Regularization) :通过添加正则化项,使模型在对未标记数据进行预测时,其输出在不同的数据增强或扰动下保持一致,从而提高模型的泛化能力。
关键特征
- 结合监督学习和无监督学习 :半监督学习既利用了标记数据的指导作用,又利用了未标记数据的结构信息,综合了监督学习和无监督学习的优势。
- 核心假设 :
- 平滑假设 :位于稠密数据区域的两个距离很近的样例的类标签相似。
- 聚类假设 :当两个样例位于同一聚类簇时,它们在很大的概率下有相同的类标签。
- 流形假设 :将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。
- 数据利用效率高 :能够在标记数据有限的情况下,充分利用大量未标记数据,提高模型的性能。
- 模型选择灵活 :可以根据具体的应用场景和数据特点,选择合适的半监督学习方法和模型