1.4 数据标注
-
半监督算法:
- 样本本身含有一些标注怎么办?自训练模型:首先训练那些标注过的数据,然后得到一个模型;之后用这个模型预测未标注的数据,得到一些伪标注数据(只保留那些高置信度的预测);用伪标注数据和已标注数据进行合并;重复循环

- 样本有些很难的标注怎么办?主动学习+自学习模型:和自学习的区别在于该模型将那些低置信度的预测让标注者重新进行标注

-
通过众筹进行标注
- imageNet众包给别人进行数据标注
- 挑战:
- 任务要简单,因为别人可能不会
- 质量控制:每个标签可能标注的不一样
- 最简单但是昂贵的方法:把图片发给很多标注工,然后通过众筹决定哪个是对的
- 没钱请人标注怎么办?
References
1.4 数据标注【斯坦福21秋季:实用机器学习中文版】_哔哩哔哩_bilibili