杨龙斌 · 295fcb6a
Hide whitespace changes
Inline Side-by-side

Showing with 286 additions and 0 deletions

knowledge_share/deep_learning.md knowledge_share/deep_learning.md +286 -0

No files found.
--- a/knowledge_share/deep_learning.md
+++ b/knowledge_share/deep_learning.md
+### 分享的理由
+
+- 处理验证码首次用到,确实效果超出想象,正确率很高,感兴趣,于是了解其原理
+- 飞桨作为团队使用的工具,更能理清这个东西适合解决什么样的问题,作为开端,起到抛砖引玉的作用,引起学习和了解的兴趣
+
+---
+
+### 具体内容
+
+#### 几个问题
+
+- 什么是数据?
+- 什么是有价值的数据?
+- 什么是机器学习?
+- 如何(选择)区别人工智能(公司,算法,产品的好坏)?
+- 如何改善深度学习?
+- 机器学习能解决的问题?不能解决的问题?
+
+---
+
+#### AI的分类
+
+- ANI artificial narrow intelligence 目前大部分的发展都在这个方面,主要受限于计算能力
+    - 自动驾驶
+    - 语音助手
+    - 搜索引擎
+    - 图像(验证码)识别
+    - 其他工业或者某个领域,某一件固定的事情
+- AGI artificial general intelligence 目前发展很慢,依赖于多个学科和技术方面(计算,芯片)
+    - 计算更复杂,逻辑更多,场景更复杂
+    - 能处理人类做不了的事情
+    - 泛化能力强
+
+---
+
+#### 机器学习
+
+- 监督学习
+    - 目的：找到input到output的映射方法 一般是针对有限的结果
+        - 广告,人------------是否点击?
+        - 英语---------------汉语
+        - 音频---------------文本
+    - 效果取决于
+        - 数据的量,质量(大数据)
+        - 搭建的神经网络的规模(算力)
+
+![图片](deep_learning/func1.png)
+
+---
+
+#### 数据
+
+- 结构化的,有一定格式的数据集
+- 收集数据,数据来源
+    - 手动标注
+    - 通过追踪手机,做统计,日志
+    - 互联网可能会有你想要的数据集
+- 收集数据的同时,对数据的训练和识别也应该开始,有益于反过来对数据收集提供改进建议
+- 数据的价值并不是想当然的,可能直觉相关的数据,效果并没有你想的好
+
+- 非结构化的(文本,声音,图像......)
+    - 需要传感器进行转化(rgb,温度，声音振幅，频率)
+
+---
+
+#### 术语解释
+
+- 机器学习：针对io进行映射,会产生一个应用,系统,输入A输出B
+    - 可以在不编程的情况下就可以获得输入A,输出B的效果
+- 数据科学：通常可以从数据中发现一些有价值的规律,帮助你做出正确的或者更好的决策
+    - 通过数据挖掘来获得一些见解,通常输出为ppt
+- 深度学习
+    - 同样是A到B,但是引入了人工神经网络(Neural Network)的概念
+    - 人工神经网络就是一个巨大的数学函数 B=f(A)
+
+![图片](deep_learning/network.png)
+
+---
+
+#### 机器学习能做的和不能做的
+
+- 人几乎一瞬间可以辨别的事情
+    - 分辨位置，识别物体，判断对错
+- 学习是否相对简单
+- 是否有大量的数据集
+
+---
+
+#### 机器学习的优缺点
+
+- 对于简单的判断学习,效果非常好,不会疲倦
+- 有很多的容易找到的学习集
+- 少数实例学习复杂概念时效果不好
+- 对于形式改变的数据,没有很好的’自适应‘
+
+---
+
+#### 机器学习的工作流(语音识别来举例)
+
+- 收集数据 标注
+- 训练模型 输入音频,识别文本,迭代
+- 发布产品
+    - 回收数据
+    - 更新迭代模型
+
+---
+
+#### 数据科学工作流
+
+- 收集数据
+- 计算统计数据
+- 提出假设,改进,继续跟踪数据
+
+---
+
+#### 如何找出工作中,可以被AI替代的部分
+
+- 思考将任务自动化比思考让AI替代岗位要有用
+- 思考驱动商业价值的主要因素有哪些,尝试增强这些因素
+- 了解生产上的痛点
+- 有些需求可能并不需要很大量的数据,所以尽快开始实践
+- 思考是否适合自己做?外包?
+- 数据科学一般需要自己做,保密
+- 尽量不要在一些有行业规范的事情上试图做更改的尝试
+
+---
+
+#### 构建AI系统的工具
+
+- 开源的机器学习框架
+    - TensorFlow
+    - PyTorch
+    - Keras
+    - MXNet
+    - CNTK
+    - Caffe
+    - PaddlePaddle
+    - Scikit-learn
+    - R
+    - Weka
+- arxiv是一个收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本的网站
+    - [arxiv](https://arxiv.org/)
+- 代码共享
+    - [GitHub](https://github.com/)
+- cpu&gpu
+    - CPU
+    - GPU :原本为处理图像构建,后来发现非常适合构建大型的深度学习计算
+- 部署
+    - Cloud,在云服务器部署
+    - On-premises,本地化部署
+
+---
+
+#### 自动驾驶汽车
+
+- 位置识别(人,汽车)
+    - 输入图像,雷达数据
+    - 识别位置
+    - GPS
+    - 地图数据
+- 运动规划
+    - 其他物体的运动预测
+    - 车道规则
+    - 红路灯
+    - 其他突发物体
+
+---
+
+#### AI的应用领域概览
+
+- 计算机视觉
+    - 图片分类，信息过滤
+    - 面部识别
+    - 物体识别
+        - 是否有?有几个?在哪里?
+    - 图像分割
+        - 具体到图形中的像素属于哪个物体
+        - 视频物体追踪
+- 自然语言处理
+    - 文本分类
+    - 情绪识别
+    - 信息检索
+    - 实体识别(公司,人名,地名)
+    - 机器翻译
+    - 词性标注
+- 语音识别
+    - 语音转文本
+    - 启动语音识别
+    - 声音id(指纹)
+    - 文本转语音
+- 机器人
+    - 汽车驾驶
+- 机器学习素材
+    - 非结构化的
+        - 图片
+        - 音频
+        - 文本
+    - 结构化
+        - 数值
+
+---
+
+#### AI技术框架
+
+- 监督学习
+    - 给定label,寻找从A->B的映射
+- 非监督学习
+    - 聚类
+        - 将数据分成不同的类别,往往类别间的差异可以给人反馈出一些特点
+        - 输入无标签的数据,最终得出一些结论
+        - 输入大量youtube视频,自动聚类出了cat的概念,
+        - (更像人类的思考方式)
+- 迁移学习(Transfer learning)
+    - 根据已有的模型,通过少量的新学习集,学习新的类似但不同的东西(大卡车,小汽车)
+    - 应用会越来越广泛
+- 强化学习
+    - 类似于训练宠物狗
+    - 给它一个奖励机制,告诉它希望它做什么,不希望做什么。。
+    - 训练出直升机可以倒立飞行0.0
+    - 游戏领域应用广泛
+- 生成虚拟的内容
+    - 人脸
+    - 画,歌曲,诗
+
+---
+
+#### 什么造就了AI公司,
+
+- 互联网公司(通过互联网(特性)把能做的事情做得更好,
+    - 短期迭代,
+    - 将决策权下放到更贴近用户的人身上)
+- AI公司
+    - 认真考虑如何去获得有价值的数据
+    - 发现能够自动化的机会
+- 往AI方向转型的大的步骤
+    - 启用试点项目获得成效
+    - 建立团队
+    - 广泛培训
+    - 建立AI策略
+    - 内外部沟通一致
+- 想要在某个方面更擅长,需要在工作和生活中设法去时间,去实际运用这个东西
+
+---
+
+#### AI团队
+
+- 软件工程师
+    - 构建软件,驱动程序运行
+- 机器学习工程师
+    - 收集数据,训练迭代模型,保证持续准确的输出
+- 机器学习研究员
+    - 扩展新的技术(机器学习技术仍在发展)
+- 数据科学家(介于前两者之间)
+- 大数据工程师
+    - 管理数据
+- AI产品经理
+    - 帮助判别什么是可行的,什么是有必要的
+
+---
+
+### 如何让AI技术不被用在不好的地方,AI与道德。
+
+---
+
+### 用飞桨训练验证码的实例。
+
+- [paddle.fluid设计思想](https://www.paddlepaddle.org.cn/documentation/docs/zh/1.5/advanced_usage/design_idea/fluid_design_idea.html)
+- 卷积神经网络的算法
+- 当几个模型的准确率在测试集上差距不大时，尽量选择网络结构相对简单的模型。往往越精巧设计的模型和方法，越不容易在不同的数据集之间迁移。
+
+---
+
+### 延深阅读
+
+- [本次分享内容来源](https://www.bilibili.com/video/BV1G64y1r71B)
+- [神经网络相关的数学原理](https://www.bilibili.com/video/BV164411m79z)
+- [paddle使用入门,案例，现有的模型](https://www.paddlepaddle.org.cn/)
+
+---
+
+### 操作作业或思考作业(多选一)
+
+- 尝试通过给出的验证码数据集 训练一个模型。
+- 我们的工作中有没有哪些工作是可以尝试用模型去解决的,不光是业务上的，工作流程上的也行，可以写在评论区?
+- AI未来的发展竞争点会在哪方面?更高效率效果的结构或算法?数据的量的比拼?在模型应用上的创新?算力(硬件)的竞赛?
+- 有没有什么方法可以让训练模型的过程自动化?
\ No newline at end of file