|
|
### 分享的理由
|
|
|
|
|
|
- 处理验证码首次用到,确实效果超出想象,正确率很高,感兴趣,于是了解其原理
|
|
|
- 飞桨作为团队使用的工具,更能理清这个东西适合解决什么样的问题,作为开端,起到抛砖引玉的作用,引起学习和了解的兴趣
|
|
|
|
|
|
---
|
|
|
|
|
|
### 具体内容
|
|
|
|
|
|
#### 几个问题
|
|
|
|
|
|
- 什么是数据?
|
|
|
- 什么是有价值的数据?
|
|
|
- 什么是机器学习?
|
|
|
- 如何(选择)区别人工智能(公司,算法,产品的好坏)?
|
|
|
- 如何改善深度学习?
|
|
|
- 机器学习能解决的问题?不能解决的问题?
|
|
|
|
|
|
---
|
|
|
|
|
|
#### AI的分类
|
|
|
|
|
|
- ANI artificial narrow intelligence 目前大部分的发展都在这个方面,主要受限于计算能力
|
|
|
- 自动驾驶
|
|
|
- 语音助手
|
|
|
- 搜索引擎
|
|
|
- 图像(验证码)识别
|
|
|
- 其他工业或者某个领域,某一件固定的事情
|
|
|
- AGI artificial general intelligence 目前发展很慢,依赖于多个学科和技术方面(计算,芯片)
|
|
|
- 计算更复杂,逻辑更多,场景更复杂
|
|
|
- 能处理人类做不了的事情
|
|
|
- 泛化能力强
|
|
|
|
|
|
---
|
|
|
|
|
|
#### 机器学习
|
|
|
|
|
|
- 监督学习
|
|
|
- 目的:找到input到output的映射方法 一般是针对有限的结果
|
|
|
- 广告,人------------是否点击?
|
|
|
- 英语---------------汉语
|
|
|
- 音频---------------文本
|
|
|
- 效果取决于
|
|
|
- 数据的量,质量(大数据)
|
|
|
- 搭建的神经网络的规模(算力)
|
|
|
|
|
|

|
|
|
|
|
|
---
|
|
|
|
|
|
#### 数据
|
|
|
|
|
|
- 结构化的,有一定格式的数据集
|
|
|
- 收集数据,数据来源
|
|
|
- 手动标注
|
|
|
- 通过追踪手机,做统计,日志
|
|
|
- 互联网可能会有你想要的数据集
|
|
|
- 收集数据的同时,对数据的训练和识别也应该开始,有益于反过来对数据收集提供改进建议
|
|
|
- 数据的价值并不是想当然的,可能直觉相关的数据,效果并没有你想的好
|
|
|
|
|
|
- 非结构化的(文本,声音,图像......)
|
|
|
- 需要传感器进行转化(rgb,温度,声音振幅,频率)
|
|
|
|
|
|
---
|
|
|
|
|
|
#### 术语解释
|
|
|
|
|
|
- 机器学习:针对io进行映射,会产生一个应用,系统,输入A输出B
|
|
|
- 可以在不编程的情况下就可以获得输入A,输出B的效果
|
|
|
- 数据科学:通常可以从数据中发现一些有价值的规律,帮助你做出正确的或者更好的决策
|
|
|
- 通过数据挖掘来获得一些见解,通常输出为ppt
|
|
|
- 深度学习
|
|
|
- 同样是A到B,但是引入了人工神经网络(Neural Network)的概念
|
|
|
- 人工神经网络就是一个巨大的数学函数 B=f(A)
|
|
|
|
|
|

|
|
|
|
|
|
---
|
|
|
|
|
|
#### 机器学习能做的和不能做的
|
|
|
|
|
|
- 人几乎一瞬间可以辨别的事情
|
|
|
- 分辨位置,识别物体,判断对错
|
|
|
- 学习是否相对简单
|
|
|
- 是否有大量的数据集
|
|
|
|
|
|
---
|
|
|
|
|
|
#### 机器学习的优缺点
|
|
|
|
|
|
- 对于简单的判断学习,效果非常好,不会疲倦
|
|
|
- 有很多的容易找到的学习集
|
|
|
- 少数实例学习复杂概念时效果不好
|
|
|
- 对于形式改变的数据,没有很好的’自适应‘
|
|
|
|
|
|
---
|
|
|
|
|
|
#### 机器学习的工作流(语音识别来举例)
|
|
|
|
|
|
- 收集数据 标注
|
|
|
- 训练模型 输入音频,识别文本,迭代
|
|
|
- 发布产品
|
|
|
- 回收数据
|
|
|
- 更新迭代模型
|
|
|
|
|
|
---
|
|
|
|
|
|
#### 数据科学工作流
|
|
|
|
|
|
- 收集数据
|
|
|
- 计算统计数据
|
|
|
- 提出假设,改进,继续跟踪数据
|
|
|
|
|
|
---
|
|
|
|
|
|
#### 如何找出工作中,可以被AI替代的部分
|
|
|
|
|
|
- 思考将任务自动化比思考让AI替代岗位要有用
|
|
|
- 思考驱动商业价值的主要因素有哪些,尝试增强这些因素
|
|
|
- 了解生产上的痛点
|
|
|
- 有些需求可能并不需要很大量的数据,所以尽快开始实践
|
|
|
- 思考是否适合自己做?外包?
|
|
|
- 数据科学一般需要自己做,保密
|
|
|
- 尽量不要在一些有行业规范的事情上试图做更改的尝试
|
|
|
|
|
|
---
|
|
|
|
|
|
#### 构建AI系统的工具
|
|
|
|
|
|
- 开源的机器学习框架
|
|
|
- TensorFlow
|
|
|
- PyTorch
|
|
|
- Keras
|
|
|
- MXNet
|
|
|
- CNTK
|
|
|
- Caffe
|
|
|
- PaddlePaddle
|
|
|
- Scikit-learn
|
|
|
- R
|
|
|
- Weka
|
|
|
- arxiv是一个收集物理学、数学、计算机科学、生物学与数理经济学的论文预印本的网站
|
|
|
- [arxiv](https://arxiv.org/)
|
|
|
- 代码共享
|
|
|
- [GitHub](https://github.com/)
|
|
|
- cpu&gpu
|
|
|
- CPU
|
|
|
- GPU :原本为处理图像构建,后来发现非常适合构建大型的深度学习计算
|
|
|
- 部署
|
|
|
- Cloud,在云服务器部署
|
|
|
- On-premises,本地化部署
|
|
|
|
|
|
---
|
|
|
|
|
|
#### 自动驾驶汽车
|
|
|
|
|
|
- 位置识别(人,汽车)
|
|
|
- 输入图像,雷达数据
|
|
|
- 识别位置
|
|
|
- GPS
|
|
|
- 地图数据
|
|
|
- 运动规划
|
|
|
- 其他物体的运动预测
|
|
|
- 车道规则
|
|
|
- 红路灯
|
|
|
- 其他突发物体
|
|
|
|
|
|
---
|
|
|
|
|
|
#### AI的应用领域概览
|
|
|
|
|
|
- 计算机视觉
|
|
|
- 图片分类,信息过滤
|
|
|
- 面部识别
|
|
|
- 物体识别
|
|
|
- 是否有?有几个?在哪里?
|
|
|
- 图像分割
|
|
|
- 具体到图形中的像素属于哪个物体
|
|
|
- 视频物体追踪
|
|
|
- 自然语言处理
|
|
|
- 文本分类
|
|
|
- 情绪识别
|
|
|
- 信息检索
|
|
|
- 实体识别(公司,人名,地名)
|
|
|
- 机器翻译
|
|
|
- 词性标注
|
|
|
- 语音识别
|
|
|
- 语音转文本
|
|
|
- 启动语音识别
|
|
|
- 声音id(指纹)
|
|
|
- 文本转语音
|
|
|
- 机器人
|
|
|
- 汽车驾驶
|
|
|
- 机器学习素材
|
|
|
- 非结构化的
|
|
|
- 图片
|
|
|
- 音频
|
|
|
- 文本
|
|
|
- 结构化
|
|
|
- 数值
|
|
|
|
|
|
---
|
|
|
|
|
|
#### AI技术框架
|
|
|
|
|
|
- 监督学习
|
|
|
- 给定label,寻找从A->B的映射
|
|
|
- 非监督学习
|
|
|
- 聚类
|
|
|
- 将数据分成不同的类别,往往类别间的差异可以给人反馈出一些特点
|
|
|
- 输入无标签的数据,最终得出一些结论
|
|
|
- 输入大量youtube视频,自动聚类出了cat的概念,
|
|
|
- (更像人类的思考方式)
|
|
|
- 迁移学习(Transfer learning)
|
|
|
- 根据已有的模型,通过少量的新学习集,学习新的类似但不同的东西(大卡车,小汽车)
|
|
|
- 应用会越来越广泛
|
|
|
- 强化学习
|
|
|
- 类似于训练宠物狗
|
|
|
- 给它一个奖励机制,告诉它希望它做什么,不希望做什么。。
|
|
|
- 训练出直升机可以倒立飞行0.0
|
|
|
- 游戏领域应用广泛
|
|
|
- 生成虚拟的内容
|
|
|
- 人脸
|
|
|
- 画,歌曲,诗
|
|
|
|
|
|
---
|
|
|
|
|
|
#### 什么造就了AI公司,
|
|
|
|
|
|
- 互联网公司(通过互联网(特性)把能做的事情做得更好,
|
|
|
- 短期迭代,
|
|
|
- 将决策权下放到更贴近用户的人身上)
|
|
|
- AI公司
|
|
|
- 认真考虑如何去获得有价值的数据
|
|
|
- 发现能够自动化的机会
|
|
|
- 往AI方向转型的大的步骤
|
|
|
- 启用试点项目获得成效
|
|
|
- 建立团队
|
|
|
- 广泛培训
|
|
|
- 建立AI策略
|
|
|
- 内外部沟通一致
|
|
|
- 想要在某个方面更擅长,需要在工作和生活中设法去时间,去实际运用这个东西
|
|
|
|
|
|
---
|
|
|
|
|
|
#### AI团队
|
|
|
|
|
|
- 软件工程师
|
|
|
- 构建软件,驱动程序运行
|
|
|
- 机器学习工程师
|
|
|
- 收集数据,训练迭代模型,保证持续准确的输出
|
|
|
- 机器学习研究员
|
|
|
- 扩展新的技术(机器学习技术仍在发展)
|
|
|
- 数据科学家(介于前两者之间)
|
|
|
- 大数据工程师
|
|
|
- 管理数据
|
|
|
- AI产品经理
|
|
|
- 帮助判别什么是可行的,什么是有必要的
|
|
|
|
|
|
---
|
|
|
|
|
|
### 如何让AI技术不被用在不好的地方,AI与道德。
|
|
|
|
|
|
---
|
|
|
|
|
|
### 用飞桨训练验证码的实例。
|
|
|
|
|
|
- [paddle.fluid设计思想](https://www.paddlepaddle.org.cn/documentation/docs/zh/1.5/advanced_usage/design_idea/fluid_design_idea.html)
|
|
|
- 卷积神经网络的算法
|
|
|
- 当几个模型的准确率在测试集上差距不大时,尽量选择网络结构相对简单的模型。往往越精巧设计的模型和方法,越不容易在不同的数据集之间迁移。
|
|
|
|
|
|
---
|
|
|
|
|
|
### 延深阅读
|
|
|
|
|
|
- [本次分享内容来源](https://www.bilibili.com/video/BV1G64y1r71B)
|
|
|
- [神经网络相关的数学原理](https://www.bilibili.com/video/BV164411m79z)
|
|
|
- [paddle使用入门,案例,现有的模型](https://www.paddlepaddle.org.cn/)
|
|
|
|
|
|
---
|
|
|
|
|
|
### 操作作业或思考作业(多选一)
|
|
|
|
|
|
- 尝试通过给出的验证码数据集 训练一个模型。
|
|
|
- 我们的工作中有没有哪些工作是可以尝试用模型去解决的,不光是业务上的,工作流程上的也行,可以写在评论区?
|
|
|
- AI未来的发展竞争点会在哪方面?更高效率效果的结构或算法?数据的量的比拼?在模型应用上的创新?算力(硬件)的竞赛?
|
|
|
- 有没有什么方法可以让训练模型的过程自动化? |
|
|
\ No newline at end of file |