0%

CoNLL 2003 是最经典的命名实体识别(NER,Named Entity Recognition)任务数据集之一,有大量的研究者在上面进行研究。如果你对该领域(自然语言处理)有兴趣,不妨以此为任务入手。

阅读全文 »

本文是BERT论文的全文翻译,转载注明出处和译者。

阅读全文 »

本文对最大期望算法的理解

来自—引入最大期望算法—最大期望算法




来自—最大期望算法实例—EM算法

对照理解李航《统计机器学习》P158 的 Q 函数
定义9.1 (Q函数)

完全数据的对数似然函数 $logP(Y,Z|\theta)$ 关于在给定观测数据 $Y$ 和当前参数 $\theta^{(i)}$ 下对未观测数据 $Z$ 的条件概率分布 $P(Z|Y,\theta^{(i)})$ 的期望成为 $Q$ 函数,即,

阅读全文 »

摘要:迁移学习为计算机视觉带来了巨大改变,但是现有的NLP技术仍需要针对具体任务改进模型,并且从零开始训练。我们提出了一种有效的迁移学习方法,可以应用到NLP领域的任何一种任务上,同时提出的技术对调整语言模型来说非常关键。我们的方法在六种文本分类任务上比现有的技术都要优秀,除此之外,这种方法仅用100个带有标签的样本进行训练,最终的性能就达到了从零开始、拥有上万个训练数据的模型性能。

阅读全文 »

SQuAD 论文

摘要:我们展示了斯坦福问答数据集(SQuAD),这是一个新的阅读理解数据集,由一组维基百科文章上的众筹工作者提出的10万个问题组成,每个问题的答案都是对应阅读文章的一段文字。我们分析数据集,以理解回答问题所需的推理类型,主要依赖依赖关系和选区树。我们建立了一个强逻辑回归模型,该模型的F1得分为51.0

阅读全文 »

技巧只能源码找?李沐带你纵览卷积网络实战中的惊艳技艺 https://www.jiqizhixin.com/articles/120805

在这篇论文中,李沐等研究者研究了一系列训练过程和模型架构的改进方法。这些方法都能提升模型的准确率,且几乎不增加任何计算复杂度。它们大多数都是次要的「技巧」,例如修正卷积步幅大小或调整学习率策略等。总的来说,采用这些技巧会产生很大的不同。因此研究者希望在多个神经网络架构和数据集上评估它们,并研究它们对最终模型准确率的影响。

阅读全文 »