多标记学习[4]的关键在于对标记间相关性的利用:

  • 一阶策略:忽略标记相关性。
    • Binary Relevance[1]:将多标记问题拆分成多个二分类问题
    • ML-KNN
  • 二阶策略:考虑标记间的成对相似性。
    • CML[2]:将多标记数据集转换为 个成对比较的数据集,每个标记对看作是一个类别。把 是相关标记 是无关标记的样本看成正类,把 是无关标记 是相关标记的样本看成负类,这两个标记同为相关或无关标记的样本被抛弃。然后在每个数据集上训练一个二分类模型,预测时综合考虑多个与某标记有关的分类器,最终结果由多数投票决定。
    • Calibrated Label Ranking
    • Rank-SVM
  • 高阶策略:考虑标记间的高阶关系。
    • Random k-labelsets[3]:先随机抽取一些只有k个标记的子集,然后用 Label Powerset 技术将每种组合看成一个新标记,然后就可以使用单标记学习算法进行学习。
    • LEAD

学习方法

  • 问题转换:利用现有的学习框架,将多标记学习问题转化为二分类或者排序问题,使数据适应算法
    • Binaray Relevance, Random k-labelsets
    • Calibrated Label Ranking[5]: 有点类似于CML
  • 算法适应:对现有算法进行改造,使算法适应数据
    • Multi-label k-nearest neighbor(ML-KNN), Multi-label decision tree(ML-DT)

参考文献:
[1] R.Boutell, Matthew, Luo, Jiebo, Shen, Xipeng, et al. Learning multi-label scene classification[J]. Pattern recognition, 2004, 37(9):1757–1771.
[2] Ghamrawi, Nadia and McCallum, Andrew. Collective multi-label classification[C]. In: Proceedings of the ACM International Conference on Information and Knowledge Management. 2005. 195–200.
[3] Tsoumakas, Grigorios and Vlahavas, Ioannis. Random k-labelsets: An ensemble method for multilabel classification[C]. In: Proceedings of the European Conference on Machine Learning. 2007. 406–417.
[4] Zhang, Minling and Zhou, Zhihua. A review on multi-label learning algorithms[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(8):1819–1837.
[5] Johannes Fürnkranz, Eyke Hüllermeier, Eneldo Loza Mencía, and Klaus Brinker. Multilabel classification via calibrated label ranking. Machine learning, 73(2):133–153, 2008