用于自然语言处理标注和模型改进的主动学习与人机协同 笔记

用于自然语言处理标注和模型改进的主动学习与人机协同

自然语言处理 (NLP) 模型在很大程度上依赖于数据,但大规模获取高质量的标注数据是最大的障碍之一。很明显,向 NLP 问题投入更多原始数据并不能真正带来多大帮助——真正推动改进的是标注数据。这就是主动学习和“人在回路”(human-in-the-loop)方法变得无价之宝的地方。它们帮助我们优先选择需要标注的数据,在关键点引入人类专业知识,并持续改进生产中的模型。 在本文中,我们将探讨什么是主动学习,如何为 NLP 标注实现“人在回路”工作流程,以及为什么这种方法可以加速模型的改进。