Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Knowledge_share
  • deep_learning

Last edited by ylb Sep 28, 2021
Page history
This is an old version of this page. You can view the most recent version or browse the history.

deep_learning

分享的理由

  • 处理验证码首次用到,确实效果超出想象,正确率很高,感兴趣,于是了解其原理
  • 飞桨作为团队使用的工具,更能理清这个东西适合解决什么样的问题,作为开端,起到抛砖引玉的作用,引起学习和了解的兴趣

具体内容

几个问题

  • 什么是数据?
  • 什么是有价值的数据?
  • 什么是机器学习?
  • 如何(选择)区别人工智能(公司,算法,产品的好坏)?
  • 如何改善深度学习?
  • 机器学习能解决的问题?不能解决的问题?

AI的分类

  • ANI artificial narrow intelligence 目前大部分的发展都在这个方面,主要受限于计算能力
    • 自动驾驶
    • 语音助手
    • 搜索引擎
    • 图像(验证码)识别
    • 其他工业或者某个领域,某一件固定的事情
  • AGI artificial general intelligence 目前发展很慢,依赖于多个学科和技术方面(计算,芯片)
    • 计算更复杂,逻辑更多,场景更复杂
    • 能处理人类做不了的事情
    • 泛化能力强

机器学习

  • 监督学习
    • 目的:找到input到output的映射方法 一般是针对有限的结果
      • 广告,人------------是否点击?
      • 英语---------------汉语
      • 音频---------------文本
    • 效果取决于
      • 数据的量,质量(大数据)
      • 搭建的神经网络的规模(算力)

图片


数据

  • 结构化的,有一定格式的数据集

  • 收集数据,数据来源

    • 手动标注
    • 通过追踪手机,做统计,日志
    • 互联网可能会有你想要的数据集
  • 收集数据的同时,对数据的训练和识别也应该开始,有益于反过来对数据收集提供改进建议

  • 数据的价值并不是想当然的,可能直觉相关的数据,效果并没有你想的好

  • 非结构化的(文本,声音,图像......)

    • 需要传感器进行转化(rgb,温度,声音振幅,频率)

术语解释

  • 机器学习:针对io进行映射,会产生一个应用,系统,输入A输出B
    • 可以在不编程的情况下就可以获得输入A,输出B的效果
  • 数据科学:通常可以从数据中发现一些有价值的规律,帮助你做出正确的或者更好的决策
    • 通过数据挖掘来获得一些见解,通常输出为ppt
  • 深度学习
    • 同样是A到B,但是引入了人工神经网络(Neural Network)的概念
    • 人工神经网络就是一个巨大的数学函数 B=f(A)

图片


机器学习能做的和不能做的

  • 人几乎一瞬间可以辨别的事情
    • 分辨位置,识别物体,判断对错
  • 学习是否相对简单
  • 是否有大量的数据集

机器学习的优缺点

  • 对于简单的判断学习,效果非常好,不会疲倦
  • 有很多的容易找到的学习集
  • 少数实例学习复杂概念时效果不好
  • 对于形式改变的数据,没有很好的’自适应‘

机器学习的工作流(语音识别来举例)

  • 收集数据 标注
  • 训练模型 输入音频,识别文本,迭代
  • 发布产品
    • 回收数据
    • 更新迭代模型

数据科学工作流

  • 收集数据
  • 计算统计数据
  • 提出假设,改进,继续跟踪数据

如何找出工作中,可以被AI替代的部分

  • 思考将任务自动化比思考让AI替代岗位要有用
  • 思考驱动商业价值的主要因素有哪些,尝试增强这些因素
  • 了解生产上的痛点
  • 有些需求可能并不需要很大量的数据,所以尽快开始实践
  • 思考是否适合自己做?外包?
  • 数据科学一般需要自己做,保密
  • 尽量不要在一些有行业规范的事情上试图做更改的尝试

构建AI系统的工具

  • 开源的机器学习框架
    • TensorFlow
    • PyTorch
    • Keras
    • MXNet
    • CNTK
    • Caffe
    • PaddlePaddle
    • Scikit-learn
    • R
    • Weka
  • arxiv是一个收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本的网站
    • arxiv
  • 代码共享
    • GitHub
  • cpu&gpu
    • CPU
    • GPU :原本为处理图像构建,后来发现非常适合构建大型的深度学习计算
  • 部署
    • Cloud,在云服务器部署
    • On-premises,本地化部署

自动驾驶汽车

  • 位置识别(人,汽车)
    • 输入图像,雷达数据
    • 识别位置
    • GPS
    • 地图数据
  • 运动规划
    • 其他物体的运动预测
    • 车道规则
    • 红路灯
    • 其他突发物体

AI的应用领域概览

  • 计算机视觉
    • 图片分类,信息过滤
    • 面部识别
    • 物体识别
      • 是否有?有几个?在哪里?
    • 图像分割
      • 具体到图形中的像素属于哪个物体
      • 视频物体追踪
  • 自然语言处理
    • 文本分类
    • 情绪识别
    • 信息检索
    • 实体识别(公司,人名,地名)
    • 机器翻译
    • 词性标注
  • 语音识别
    • 语音转文本
    • 启动语音识别
    • 声音id(指纹)
    • 文本转语音
  • 机器人
    • 汽车驾驶
  • 机器学习素材
    • 非结构化的
      • 图片
      • 音频
      • 文本
    • 结构化
      • 数值

AI技术框架

  • 监督学习
    • 给定label,寻找从A->B的映射
  • 非监督学习
    • 聚类
      • 将数据分成不同的类别,往往类别间的差异可以给人反馈出一些特点
      • 输入无标签的数据,最终得出一些结论
      • 输入大量youtube视频,自动聚类出了cat的概念,
      • (更像人类的思考方式)
  • 迁移学习(Transfer learning)
    • 根据已有的模型,通过少量的新学习集,学习新的类似但不同的东西(大卡车,小汽车)
    • 应用会越来越广泛
  • 强化学习
    • 类似于训练宠物狗
    • 给它一个奖励机制,告诉它希望它做什么,不希望做什么。。
    • 训练出直升机可以倒立飞行0.0
    • 游戏领域应用广泛
  • 生成虚拟的内容
    • 人脸
    • 画,歌曲,诗

什么造就了AI公司,

  • 互联网公司(通过互联网(特性)把能做的事情做得更好,
    • 短期迭代,
    • 将决策权下放到更贴近用户的人身上)
  • AI公司
    • 认真考虑如何去获得有价值的数据
    • 发现能够自动化的机会
  • 往AI方向转型的大的步骤
    • 启用试点项目获得成效
    • 建立团队
    • 广泛培训
    • 建立AI策略
    • 内外部沟通一致
  • 想要在某个方面更擅长,需要在工作和生活中设法去时间,去实际运用这个东西

AI团队

  • 软件工程师
    • 构建软件,驱动程序运行
  • 机器学习工程师
    • 收集数据,训练迭代模型,保证持续准确的输出
  • 机器学习研究员
    • 扩展新的技术(机器学习技术仍在发展)
  • 数据科学家(介于前两者之间)
  • 大数据工程师
    • 管理数据
  • AI产品经理
    • 帮助判别什么是可行的,什么是有必要的

如何让AI技术不被用在不好的地方,AI与道德。

图片 图片


用飞桨训练验证码的实例。

  • paddle.fluid设计思想
  • 卷积神经网络的算法
  • 当几个模型的准确率在测试集上差距不大时,尽量选择网络结构相对简单的模型。往往越精巧设计的模型和方法,越不容易在不同的数据集之间迁移。

延深阅读

  • 本次分享内容来源
  • 神经网络相关的数学原理
  • paddle使用入门,案例,现有的模型

操作作业或思考作业(多选一)

  • 尝试通过给出的验证码数据集 训练一个模型。
  • 我们的工作中有没有哪些工作是可以尝试用模型去解决的,不光是业务上的,工作流程上的也行,可以写在评论区?
  • AI未来的发展竞争点会在哪方面?更高效率效果的结构或算法?数据的量的比拼?在模型应用上的创新?算力(硬件)的竞赛?
  • 有没有什么方法可以让训练模型的过程自动化?
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages