最近邻方法 Nearest Neighbor Methords

发表于 2018-11-23 分类于机器学习，最近邻算法

最近邻回归 Nearest neighbor regression

首先回归和分类最要得区别就是：回归的目标数据是连续的，分类的目标数据是离散的。最近邻回归的原理是从训练样本中找到与新点在距离上最近的预定数量的几个点，并从这些点中预测标签。这些点的数量可以是用户自定义的常量（K-最近邻学习），也可以根据不同的点的局部密度（基于半径的最近邻学习）。距离通常可以通过任何方式来度量： standard Euclidean distance（标准欧式距离）是最常见的选择。Neighbors-based（基于邻居的）方法被称为非泛化机器学习方法，因为它们只是简单地”记住”了其所有的训练数据（可能转换为一个快速索引结构，如 Ball Tree或 KD Tree）

阅读全文 »

支持向量机

发表于 2018-11-22 更新于 2019-08-20 分类于机器学习，支持向量机

经典支持向量机 Support Vector Machines

在机器学习中，支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例，每个训练实例被标记为属于两个类别中的一个或另一个，SVM训练算法创建一个将新的实例分配给两个类别之一的模型，使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点，这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后，将新的实例映射到同一空间，并基于它们落在间隔的哪一侧来预测所属类别。

阅读全文 »

Transfer learning for time series classification

发表于 2018-11-20 分类于论文，论文阅读

本文是法国上阿尔萨斯大学发表于 IEEE Big Data 2018 上的工作。迁移学习和深度学习已经被广泛应用于计算机视觉和自然语言处理领域。但是在时间序列分类方面，至今没有完整的有代表性的工作。

本文是第一篇系统探讨基于深度迁移学习进行时间序列分类的论文。在内容上与今年 CVPR 最佳论文 Taskonomy: Disentangling Task Transfer Learning 相似，都是做了大量实验来验证一些迁移学习方面的结论。

阅读全文 »

Improving Language Understanding by Generative Pre-Training

发表于 2018-11-19 分类于论文，论文阅读

OpenAI 20180611日更新了一篇博客，他们利用一个任务无关的可扩展系统在多语言任务上取得了卓越进展。论文及代码已经公布。他们的方法结合了 transformers 和无监督学习两个已经存在的方法。项目结果证明了将监督学习和无监督预训练结合的方法十分有效。这是很多人设想过的方法，他们希望他们的成果可以激励更多人将该方法应用于更大更复杂的数据集上。

阅读全文 »

CoLA The Corpus of Linguistic Acceptability

发表于 2018-11-12 更新于 2018-12-25 分类于论文，论文实现

CoLA 数据集官网

Introduction

The Corpus of Linguistic Acceptability (CoLA) in its full form consists of 10657 sentences from 23 linguistics publications, expertly annotated for acceptability (grammaticality) by their original authors. The public version provided here contains 9594 sentences belonging to training and development sets, and excludes 1063 sentences belonging to a held out test set. Contact alexwarstadt [at] gmail [dot] com with any questions or issues. Read the paper or checkout the source code for baselines.

阅读全文 »

智能家居自然语言理解平台的解决方案

发表于 2018-11-12 分类于项目，智能家居

参照百度大脑的项目经验训练我们自己的模型，研发我们的自然语言理解平台。

文档整理

标题	说明	附加
智能家居项目调研	智能家居项目	20181111
自然语言理解与交互技术平台(UNIT)

阅读全文 »

自然语言理解与交互技术平台

发表于 2018-11-12 分类于项目，智能家居

参照百度大脑的项目经验训练我们自己的模型，研发我们的自然语言理解平台。

百度理解与交互技术平台(UNIT)

【提升篇】酒店语音助手实例教程

1 UNIT2.0基本概念
https://ai.baidu.com/docs#/UNIT-v2-intro/top

阅读全文 »

智能家居项目调研

发表于 2018-11-11 更新于 2018-11-12 分类于项目，智能家居

一、项目背景

智能家居或称智能住宅，是一个以住宅为平台，兼备建筑、网络通信、信息家电、设备自动化，集系统、结构、服务、管理为一体的高效、舒适、安全、便利、环保的居住环境。

阅读全文 »

LearningRate模型的学习率

发表于 2018-11-06 分类于深度学习

LearningRate

在使用不同优化器（例如随机梯度下降，Adam）神经网络相关训练中，学习速率作为一个超参数控制了权重更新的幅度，以及训练的速度和精度。学习速率太大容易导致目标（代价）函数波动较大从而难以找到最优，而弱学习速率设置太小，则会导致收敛过慢耗时太长

阅读全文 »

Attention is All You Need

发表于 2018-11-06 更新于 2020-01-06 分类于论文，神经机器翻译

Attention is All You Need 是谷歌发表的文章，针对nlp里的机器翻译问题，提出了一种被称为”Transformer”的网络结构，基于注意力机制。文章提出，以往nlp里大量使用RNN结构和encoder-decoder结构，RNN及其衍生网络的缺点就是慢，问题在于前后隐藏状态的依赖性，无法实现并行，而文章提出的”Transformer”完全摒弃了递归结构，依赖注意力机制，挖掘输入和输出之间的关系，这样做最大的好处是能够并行计算了。

阅读全文 »