CoNLL 2003 是最经典的命名实体识别(NER,Named Entity Recognition)任务数据集之一,有大量的研究者在上面进行研究。如果你对该领域(自然语言处理)有兴趣,不妨以此为任务入手。
我的 CoNLL 2003 解决方案
CoNLL 2003 data 数据 + 基于BERT的代码
BERT-for-Sequence-Labeling-and-Text-Classification 这是使用BERT进行序列标注和文本分类的模板代码(包含数据),方便大家将BERT用于更多任务。该代码已经在SNIPS(意图识别和槽填充任务)、ATIS(意图识别和槽填充任务)和conll-2003(命名实体识别任务)数据集上进行了实验。欢迎使用这个BERT模板解决更多NLP任务,然后在这里分享你的结果和代码。
该模板代码提供的基线模型在conll-2003上的实验结果是:{F1值 = 0.926, 精确率 = 0.925, 召回率 = 0.928}
相关内容
- CoNLL 2003 data 数据说明
https://www.clips.uantwerpen.be/conll2003/ner/ - CoNLL 2003 论文 The CoNLL 2003 NER task consists of newswire text from the Reuters RCV1 corpus tagged with four different entity types (PER, LOC, ORG, MISC). Models are evaluated based on span-based F1 on the test set.
- 相关任务多关系抽取研究
CoNLL 2003 排行榜
Guillaume Genthial 对CoNLL2003 代码及讲解
- Sequence Tagging with Tensorflow 对应代码 sequence_tagging
- Intro to tf.estimator and tf.data 对应代码 lstm_crf
支持本文研究
如果你阅读本文后有所收获,十分欢迎点击下面的广告,您对下面广告的每一次点击都是对本文研究的大力支持,谢谢!