Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Knowledge_share
  • deep_learning

deep_learning · Changes

Page history
add knowledge deep_learning authored Sep 28, 2021 by 杨龙斌's avatar 杨龙斌
Hide whitespace changes
Inline Side-by-side
Showing with 286 additions and 0 deletions
+286 -0
  • knowledge_share/deep_learning.md knowledge_share/deep_learning.md +286 -0
  • No files found.
knowledge_share/deep_learning.md 0 → 100644
View page @ 295fcb6a
### 分享的理由
- 处理验证码首次用到,确实效果超出想象,正确率很高,感兴趣,于是了解其原理
- 飞桨作为团队使用的工具,更能理清这个东西适合解决什么样的问题,作为开端,起到抛砖引玉的作用,引起学习和了解的兴趣
---
### 具体内容
#### 几个问题
- 什么是数据?
- 什么是有价值的数据?
- 什么是机器学习?
- 如何(选择)区别人工智能(公司,算法,产品的好坏)?
- 如何改善深度学习?
- 机器学习能解决的问题?不能解决的问题?
---
#### AI的分类
- ANI artificial narrow intelligence 目前大部分的发展都在这个方面,主要受限于计算能力
- 自动驾驶
- 语音助手
- 搜索引擎
- 图像(验证码)识别
- 其他工业或者某个领域,某一件固定的事情
- AGI artificial general intelligence 目前发展很慢,依赖于多个学科和技术方面(计算,芯片)
- 计算更复杂,逻辑更多,场景更复杂
- 能处理人类做不了的事情
- 泛化能力强
---
#### 机器学习
- 监督学习
- 目的:找到input到output的映射方法 一般是针对有限的结果
- 广告,人------------是否点击?
- 英语---------------汉语
- 音频---------------文本
- 效果取决于
- 数据的量,质量(大数据)
- 搭建的神经网络的规模(算力)
![图片](deep_learning/func1.png)
---
#### 数据
- 结构化的,有一定格式的数据集
- 收集数据,数据来源
- 手动标注
- 通过追踪手机,做统计,日志
- 互联网可能会有你想要的数据集
- 收集数据的同时,对数据的训练和识别也应该开始,有益于反过来对数据收集提供改进建议
- 数据的价值并不是想当然的,可能直觉相关的数据,效果并没有你想的好
- 非结构化的(文本,声音,图像......)
- 需要传感器进行转化(rgb,温度,声音振幅,频率)
---
#### 术语解释
- 机器学习:针对io进行映射,会产生一个应用,系统,输入A输出B
- 可以在不编程的情况下就可以获得输入A,输出B的效果
- 数据科学:通常可以从数据中发现一些有价值的规律,帮助你做出正确的或者更好的决策
- 通过数据挖掘来获得一些见解,通常输出为ppt
- 深度学习
- 同样是A到B,但是引入了人工神经网络(Neural Network)的概念
- 人工神经网络就是一个巨大的数学函数 B=f(A)
![图片](deep_learning/network.png)
---
#### 机器学习能做的和不能做的
- 人几乎一瞬间可以辨别的事情
- 分辨位置,识别物体,判断对错
- 学习是否相对简单
- 是否有大量的数据集
---
#### 机器学习的优缺点
- 对于简单的判断学习,效果非常好,不会疲倦
- 有很多的容易找到的学习集
- 少数实例学习复杂概念时效果不好
- 对于形式改变的数据,没有很好的’自适应‘
---
#### 机器学习的工作流(语音识别来举例)
- 收集数据 标注
- 训练模型 输入音频,识别文本,迭代
- 发布产品
- 回收数据
- 更新迭代模型
---
#### 数据科学工作流
- 收集数据
- 计算统计数据
- 提出假设,改进,继续跟踪数据
---
#### 如何找出工作中,可以被AI替代的部分
- 思考将任务自动化比思考让AI替代岗位要有用
- 思考驱动商业价值的主要因素有哪些,尝试增强这些因素
- 了解生产上的痛点
- 有些需求可能并不需要很大量的数据,所以尽快开始实践
- 思考是否适合自己做?外包?
- 数据科学一般需要自己做,保密
- 尽量不要在一些有行业规范的事情上试图做更改的尝试
---
#### 构建AI系统的工具
- 开源的机器学习框架
- TensorFlow
- PyTorch
- Keras
- MXNet
- CNTK
- Caffe
- PaddlePaddle
- Scikit-learn
- R
- Weka
- arxiv是一个收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本的网站
- [arxiv](https://arxiv.org/)
- 代码共享
- [GitHub](https://github.com/)
- cpu&gpu
- CPU
- GPU :原本为处理图像构建,后来发现非常适合构建大型的深度学习计算
- 部署
- Cloud,在云服务器部署
- On-premises,本地化部署
---
#### 自动驾驶汽车
- 位置识别(人,汽车)
- 输入图像,雷达数据
- 识别位置
- GPS
- 地图数据
- 运动规划
- 其他物体的运动预测
- 车道规则
- 红路灯
- 其他突发物体
---
#### AI的应用领域概览
- 计算机视觉
- 图片分类,信息过滤
- 面部识别
- 物体识别
- 是否有?有几个?在哪里?
- 图像分割
- 具体到图形中的像素属于哪个物体
- 视频物体追踪
- 自然语言处理
- 文本分类
- 情绪识别
- 信息检索
- 实体识别(公司,人名,地名)
- 机器翻译
- 词性标注
- 语音识别
- 语音转文本
- 启动语音识别
- 声音id(指纹)
- 文本转语音
- 机器人
- 汽车驾驶
- 机器学习素材
- 非结构化的
- 图片
- 音频
- 文本
- 结构化
- 数值
---
#### AI技术框架
- 监督学习
- 给定label,寻找从A->B的映射
- 非监督学习
- 聚类
- 将数据分成不同的类别,往往类别间的差异可以给人反馈出一些特点
- 输入无标签的数据,最终得出一些结论
- 输入大量youtube视频,自动聚类出了cat的概念,
- (更像人类的思考方式)
- 迁移学习(Transfer learning)
- 根据已有的模型,通过少量的新学习集,学习新的类似但不同的东西(大卡车,小汽车)
- 应用会越来越广泛
- 强化学习
- 类似于训练宠物狗
- 给它一个奖励机制,告诉它希望它做什么,不希望做什么。。
- 训练出直升机可以倒立飞行0.0
- 游戏领域应用广泛
- 生成虚拟的内容
- 人脸
- 画,歌曲,诗
---
#### 什么造就了AI公司,
- 互联网公司(通过互联网(特性)把能做的事情做得更好,
- 短期迭代,
- 将决策权下放到更贴近用户的人身上)
- AI公司
- 认真考虑如何去获得有价值的数据
- 发现能够自动化的机会
- 往AI方向转型的大的步骤
- 启用试点项目获得成效
- 建立团队
- 广泛培训
- 建立AI策略
- 内外部沟通一致
- 想要在某个方面更擅长,需要在工作和生活中设法去时间,去实际运用这个东西
---
#### AI团队
- 软件工程师
- 构建软件,驱动程序运行
- 机器学习工程师
- 收集数据,训练迭代模型,保证持续准确的输出
- 机器学习研究员
- 扩展新的技术(机器学习技术仍在发展)
- 数据科学家(介于前两者之间)
- 大数据工程师
- 管理数据
- AI产品经理
- 帮助判别什么是可行的,什么是有必要的
---
### 如何让AI技术不被用在不好的地方,AI与道德。
---
### 用飞桨训练验证码的实例。
- [paddle.fluid设计思想](https://www.paddlepaddle.org.cn/documentation/docs/zh/1.5/advanced_usage/design_idea/fluid_design_idea.html)
- 卷积神经网络的算法
- 当几个模型的准确率在测试集上差距不大时,尽量选择网络结构相对简单的模型。往往越精巧设计的模型和方法,越不容易在不同的数据集之间迁移。
---
### 延深阅读
- [本次分享内容来源](https://www.bilibili.com/video/BV1G64y1r71B)
- [神经网络相关的数学原理](https://www.bilibili.com/video/BV164411m79z)
- [paddle使用入门,案例,现有的模型](https://www.paddlepaddle.org.cn/)
---
### 操作作业或思考作业(多选一)
- 尝试通过给出的验证码数据集 训练一个模型。
- 我们的工作中有没有哪些工作是可以尝试用模型去解决的,不光是业务上的,工作流程上的也行,可以写在评论区?
- AI未来的发展竞争点会在哪方面?更高效率效果的结构或算法?数据的量的比拼?在模型应用上的创新?算力(硬件)的竞赛?
- 有没有什么方法可以让训练模型的过程自动化?
\ No newline at end of file
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages