0%

Git手册使用方法:

  1. 首先速览本文第一章和第二章内容;
  2. 跟着廖雪峰 Git教程操作一遍,然后再仔细阅读本文内容;
  3. 如果已经熟悉,直接看阅读更多中的内容即可。

第一章

创建版本库

初始化一个Git仓库,使用git init命令。

阅读全文 »

本文计划内容:ERNIE核心资源+论文解析+实战

飞桨-ERNIE 核心资源

ERNIE 2.0 是基于持续学习的语义理解预训练框架,使用多任务学习增量式构建预训练任务。ERNIE 2.0 中,新构建的预训练任务类型可以无缝的加入训练框架,持续的进行语义理解学习。 通过新增的实体预测、句子因果关系判断、文章句子结构重建等语义任务,ERNIE 2.0 语义理解预训练模型从训练数据中获取了词法、句法、语义等多个维度的自然语言信息,极大地增强了通用语义表示能力。

阅读全文 »

正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句子.

一个正则表达式是在一个主体字符串中从左到右匹配字符串时的一种样式. “Regular expression”这个词比较拗口, 我们常使用缩写的术语”regex”或”regexp”. 正则表达式可以从一个基础字符串中根据一定的匹配模式替换文本中的字符串、验证表单、提取字符串等等.

阅读全文 »

XGBoost的工程师手册 = XGBoost论文理论解析 + XGBoost实战 + XGBoost面试题

编者:袁宵

XGBoost: A Scalable Tree Boosting System

树提升(Tree boosting)算法是一种非常有效且被广泛使用的机器学习方法。 在本文中,我们描述了一个名为 XGBoost (Extreme Gradient Boosting 极限提升树)的有扩展性的端到端的树提升系统,数据科学家们广泛使用该系统来实现许多机器学习挑战的最新成果。我们提出了一种新颖的稀疏数据感知算法(sparsity-aware algorithm)用于稀疏数据,一种带权值的分位数略图(weighted quantile sketch) 来近似实现树的学习。更重要的是,我们提供有关缓存访问模式(cache access patterns),数据压缩和分片(data compression and sharding)的见解,以构建有延展性的提升树系统。通过结合这些见解,XGBoost可用比现系统少得多的资源来处理数十亿规模的数据。

阅读全文 »

The first part of this resource pool summarizes the resources used to solve text generation tasks using the language model GPT2, including papers, code, demo demos, and hands-on tutorials. The second part shows the application of GPT2 in the text generation tasks of machine translation, automatic summary generation, migration learning and music generation. Finally, the 15 major language models based on Transformer between 2018 and 2019 are compared.

阅读全文 »

中英文本纠错的差异

英文的拼写错误,大致可以分为两类:一类是英文单词拼写不合法(Non-Word Errors),造成错误的“词”在词典里没有对应的单词(Word),比如把artificial拼成artificel;还有一类是单词拼写合法,但在语境中错误(Real-Word Errors),比如把be interested in写成be interest in。与拼写不合法相比,这类错误更难被纠正。前者一般使用上下文无关(Context-Independent Methods)的方法解决,后者则通常使用上下文相关(Context-Dependent Methods)的方法识别。

阅读全文 »

异常检测

异常检测 百度百科

异常检测(Anomaly detection) 的假设是入侵者活动异常于正常主体的活动。根据这一理念建立主体正常活动的“活动简档”,将当前主体的活动状况与“活动简档”相比较,当违反其统计规律时,认为该活动可能是“入侵”行为。异常检测的难题在于如何建立“活动简档”以及如何设计统计算法,从而不把正常的操作作为“入侵”或忽略真正的“入侵”行为。

阅读全文 »