半监督学习
半监督学习:让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能。
未标记样本
- 聚类假设:假设数据存在簇结构,同一个簇的样本属于同一个类别
- 流形假设:假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值

- 纯(pure)半监督学习:假定训练数据中的未标记样本并非待预测的数据,基于“开放世界”假设
- 直推学习:假定学习过程中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能。基于“封闭世界”假设
生成式方法
- 生成式方法(generative methods) 直接基于生成式模型的方法。此类方法假设所有数据(无论是否有标记)都是由同一个潜在的模型“生成”。
- 这个假设使得我们能通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据的标记则可看作模型的缺失参数,通常可基于EM 算法进行极大似然估计求解
- 模型假设必须准确,即假设的生成式模型必须与真实数据分布吻合;否则利用未标记数据反倒会降低泛化性能。
半监督SVM
- 有监督SVM:可求对偶,核函数形式(🤔如何求?)
- S3VM:在考虑未标记样本后, S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面:

- TSVM: 尝试将每个未标记样本分别作为正例或反例,然后在所有这些结果中,寻求一个在所有样本(包括有标记样本和进行了标记指派的未标记样本)上间隔最大化的划分超平面,目标如下:在一系列不等式约束的条件下
\[
\min_{w,b,\bar y, \psi} \frac{1}{2}\|w\|_2^2 + C_l\sum_{i=1}^{l}\psi_i + C_u\sum_{i=l+1}^m\psi_i\tag{1}
\]

其中式(13.9)即为上式(1)
- 在对未标记样本进行标记指派及调整的过程中,有可能出现类别不平衡问题,即某类的样本远多于另一类,这将对SVM的训练造成困扰。
- 为了减轻类别不平衡性所造成的不利影响,可对算法稍加改进:将优化目标中的\(C_u\)项拆分为 \(C_u^+\) 与\(C_u^−\)两项,分别对应基于伪标记而当作正、反例使用的未标记样本,并在初始化时令
\[
C_u^+ = \frac{u_-}{u_+}C_u^-
\]
图半监督学习
- 给定一个数据集,可将其映射为一个图,数据集中每个样本对应于图中一个结点,若两个样本之间的相似度很高(或相关性很强),则对应的结点之间存在一条边,边的“强度”正比于样本之间的相似度(或相关性)。
- 通过这个图结构,让少量有标签样本的“信息”(标签)沿着边传播和扩散到大量的无标签样本上,从而为它们预测出标签。
基于分歧的方法
- 利用多个学习模型对未标记数据的预测差异(即“分歧”)作为指导信号,从中选取最可靠的预测结果来“教导”其他模型,从而协同利用未标记数据提升整体性能。
- 优势:方法直观、实现简单,在许多场景下(尤其在视图划分合理时)效果显著。它巧妙地将无标签数据的使用问题,转化为了一个模型选择与置信度评估的问题。
半监督聚类
聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过半监督聚类(semi-supervised clustering)利用监督信息以获得更好的聚类效果