本文宗旨:持续追踪深度学习算法在商业的实际应用,提升对算法的理解和算法的商业应用能力。
编者:袁宵
导言:模型(算法)仅仅是5%的代码量
模型在一个生产级深度学习系统中的位置和重要性比例如下图所示:
下图是生产级深度学习系统中不同组件的高级概述:
由上可知模型(算法)只是深度学习系统或者说产品中的一个重要组成部分,但我们不能过度关注模型而忽视了其它组成部分,后文便是从模型(算法)到商业产品的具体案例,望能启发读者。
知乎 推荐算法
知乎CTO李大海:知识内容平台 AI 技术应用思考 | 李大海 | 20190430
这几年随着移动互联网的发展,内容平台迎来了黄金时代。但也不可避免的,出现了很多问题和挑战。知乎合伙人、CTO 李大海在 ArchSummit 架构师峰会上演讲,并总结这些问题主要体现在两个方面:第一,信息过载问题。第二,是用户的内容消费升级。
该文主要内容:
一、内容市场背景介绍:
1、信息过载
2、用户内容需求升级
3、知乎的使命
二、知乎如何连接「人与内容」:
2013 Edge Rank -> 2016 GBDT 算法 -> 2017 word2vec 和 ANN 算法(Approximate Nearest Neighbor)-> 多目标学习 和 seq2seq
1、首页个性化推荐技术的架构与应用
2、知乎搜索技术的架构与应用
3、问题路由技术的架构与应用
4、算法机器人「瓦力」的应用
5、视频理解技术的应用
三、知乎如何连接「人与人」:
Graph Embedding 模型
1、基于用户行为的 Embeeding 表示模型(主要使用用户搜索内容、关注、收藏、点赞、阅读的回答、文章等对应的话题,作为用户的特征,整理成 0-1 的向量。使用变分自编码器(Variational Auto-Encoder,VAE),使样本对应到正态分布,计算此正态分布和标准正态分布的 KL 散度距离作为额外的 loss,最终为得到用户的 Embedding 表示。)
2、基于用户社交关系的 Embeeding 表示模型(主要使用 skip-gram 模型,得到用户的特征表示,从用户关注优秀回答者的关注关系网络中抽取数据集,采用 Randomwalk 方法抽样有序的节点,从而将社交网络转化为有序节点进行学习。)
四、知乎如何连接「内容与内容」:
1、知识图谱
2、其他
五、后续计划:构建 AI 驱动的「智能社区」
NAVER 商品分类算法
使用TensorFlow自动分类NAVER购物产品类别 | TensorFlow | 20190521
NAVER Shopping是NAVER提供的购物门户服务。 NAVER Shopping将产品与类别相匹配,以便系统地组织产品并允许更轻松地搜索用户。 当然,每天将超过2000万个新注册产品与大约5,000个类别相匹配的任务是不可能手动完成的。本文介绍了使用TensorFlow自动匹配NAVER购物产品类别的过程,并解释了我们如何解决在将机器学习应用于我们的服务所使用的实际数据的过程中出现的一些问题。
爱奇艺、快手 、美图 短视频分类算法
短视频分类技术| 袁宵 | 20190711
近年来,短视频领域一直广受关注,且发展迅速。每天有大量UGC短视频被生产、分发和消费,为生产系统带来了巨大的压力,其中的难点之一就是为每个短视频快速、准确地打上标签。为了解决人工编辑的时效和积压问题,自动化标签技术成为各大内容领域公司都非常关注的关键课题。短视频大规模层次分类作为内容理解技术的一个重要方向,为爱奇艺的短视频智能分发业务提供着强力支持,其输出被称为“类型标签”。
美图 推荐算法
人均关注和时长均增长 50%,你的机器学习平台是这么做的吗? | 汤斌 | 20190909
在美图公司社交战略部署下,推荐算法存在多方面的挑战,为了解决这些挑战,我们团队从工具和算法两个方面分别开展了工作。在工具上,我们开发了 MML 机器学习平台,提供从数据分析到模型在线服务的全流程开发及部署支持。基于 Tensorflow ,我们内部自研了 Bamboo 建模框架,提供了丰富的 SOTA 模型,常用 Layers 以及其它建模所需的组件,模型离线评估等,让算法工程师专注网络结构的设计。在算法上,我们将推荐排序的演进划分成四个阶段,从线性模型 + 大规模人工组合特征,到非线性模型 + 少量人工特征,再到深度学习模型 + 用户行为序列特征,最后是从单目标优化到多目标优化。推荐排序四个阶段的演进,又可以归纳为三个方面的工作,分别是模型优化、特征工程,以及多目标优化。在过去的一年,我们在美拍,累计提升人均关注 65.06%,人均时长 56.07%。美图秀秀,累计提升人均关注 14.93%,人均时长 10.33%。在这一年的实践中,我们进行了很多的尝试,在这里也和大家分享我们过去的一些尝试和踩过的一些坑,希望能让大家有所收获。
百度 百度机器学习课程
百度机器学习课程 (四):跨上大数据的战车 | 毕然 | 20190910
从商业和应用的角度阐述,为什么各行各业的企业都想跨上大数据的战车,大数据可以为业务带来哪些好处,以及如何利用这些好处改造业务?
百度机器学习课程系列课程:
- 百度机器学习课程 (一):机器学习可能吗?
- 百度机器学习课程(二):机器学习如何做?
- 百度机器学习课程 (三):大数据的价值 (从一线工作者的角度,谈一谈大数据对机器学习和人工智能意味着什么。)
- 百度机器学习课程 (四):跨上大数据的战车
大数据的常见应用场景:
- 个性化匹配:在长尾经济与共享经济下的全新业务模式。信息、商品、服务、资源的个性化匹配,如:搜索,新闻 APP,电商,找工作/对象,打车 APP,信贷等。
- 代替人工:业务中的人工环节,引入智能模型,提升效率。基于大数据的智能学习,替代机械性的人工服务,如:机器翻译,人脸检测的安保系统,电商的自动客服,无人车等。
大数据不仅仅是数据技术,还需要完整的产业链:
数据 -> 模型 -> 业务 -> 需求
只有这些链条能够全部串联起来的时候,才能说我们真正利用了大数据技术解决了我们的业务问题。以买鞋的案例来说,首先我们需要有很多顾客购买各种各样鞋子的数据,然后建立一个个性化推荐的模型,而我们的业务是鞋厂可以根据用户个性化的需求,来规模化的生产各种各样的鞋子,最后的需求,我们需要确认顾客个性化的喜好和风格。只有数据、模型、业务和需求,这四方面全部 OK 的时候,才能真正的建立一个完整的基于数据技术的产业链条,而不仅仅是招来几个做机器学习的人,搞一些机器学习的技术,却没有对用户需求和业务进行深刻认知。
华为 文本情感分类算法
一文看懂 NLP 中的文本情感分析任务 | 李明磊 | 20190921
本文介绍了情感分析的概念以及华为云在情感分析方面的实践和进展,部分服务已经可以在我们的“EI 体验空间”小程序体验,欢迎大家体验并提出宝贵的意见。情感分析服务可以用于商品评价智能化分析、智能评分等,欢迎大家体验。
阅读更多:InfoQ 促进软件开发领域知识与创新的传播-极客邦