概述
大数据专题-1
- 声明
- 引言
- 从技术创新长波理论看新一代信息技术
- 大数据是新一代信息技术的业务引擎
- 特点
- 应用
- 风险
- 技术挑战
- 大数据平台的挑战
- 大数据平台
- 层次
声明
课程笔记,授课教师:
李影 大数据系统核平台 NoSQLDB 大数据计算引擎spark/tensorflow
刘宏志 分析、算法
张齐勋 3案例设计:数据收取分析,搭建大数据平台,平台调优
引言
柯达→索尼(数码领先)→诺基亚(手机=照相机)(被微软收购合并,大量裁员)→苹果(smart phone)→手机大战-三星领先
传音手机 解决African People拍照的人脸识别,小而美
大数据中很多都是非结构数据,e.g.图像
“如果网络能够解决人与企业之间沟通的问题,那么会带来两场革命,一是计算,二是商务。” ——by Louis ?
预言准确
数据中心系统:性能差的机器、故障是常态。
基于此基础设施,实现高性能支撑,并可进行机器学习、人工智能等
Gartner 市场咨询企业
新兴技术成熟度曲线
e.g. 去年深度学习“寒冬”,每种技术都会经过反省期,后来形成方法论指导(也可能消失被取代),逐渐发展
2018年AI普惠,区块链,生化芯片等处于热潮
知识图谱未来对机器学习可能有很大推动
技术不断创新,树立全局观
从技术创新长波理论看新一代信息技术
IT正在颠覆传统行业
能力 应用 成本 是IT发展的3大目标
追求能力的提高,迫切要求应用的广度、深度,成本的要求
摩尔定律:晶体管数量每18-24月增长一倍
梅特卡夫定律:网络价值随用户数量的平方数而增加(用的人越多价值越高-流量)
贝尔定律:计算机每10年更新一代,面向新应用,价格更低
香农定理:信道最大传输速率与?的关系==?==
早期面向能力和成本
“注意力的经济” 互联网商业价值开始体现
Backrub→Google
后摩尔时代:①质变:改进/替换图灵机、冯诺依曼结构……量子计算机、类脑芯片…… ②量变引起质变:资源聚合,云计算、泛互联网……
梅特卡夫定律和贝尔定律成为主导,取代摩尔定律和香农定理
未来形成 新平台、新模式、新思维
互联网+移动互联网(人)+物联网(物)
开源机器学习平台 tensorflow …
量子计算机,类脑计算机(比特大陆)
人类智能 vs 人工智能 差距仍然很大
符号主义 逻辑推理
连接主义 神经网络、深度学习
行为主义 ?
小样本学习,基于贝叶斯程序学习等概率学习方法,应该是下一代人工智能的重要方向
深度学习探索we don’t know what we known
传统算法总结 we know what we know
情感、意识的深度学习模拟 we know what we unknown 脑科学继续探索
大数据是新一代信息技术的业务引擎
《大数据时代》
数据产生方式:运营式系统数据(数据仓库,知识系统)+用户原创数据(Web2.0 带动大数据e.g. Hadoop发展)+感知式系统数据(物理世界-互联网)
数据资源:可再生,待挖掘
特点
- 数据量巨大
且增长迅速 - 数据类型繁多
10%结构化数据,存储在数据库中
90%非/半结构化数据,与人类信息密切相关 e.g.简历=半结构化数据
e.g. 结构化数据 远程监督学习 类自然语言中挖掘信息 ?互补 - 数据处理速度快,价值密度低
时间窗口变小,仅在极短时间内具有价值 - 密度低 - 数据不确定性
e.g. 自动驾驶:①先检测车辆、行人,再规划路径,再控制方向②端到端学习将视频、雷达、激光测距都丢给学习算法,直接控制方向 但是干扰因素很多,小的扰动就会造成波动-深度学习的模式规律难以总结
应用
Jim Gary 实验归纳→模型推演(公理)→仿真模拟(理论指导下 计算机)→数据密集型科学发现(没有明确目标,从中总结)
- 描述性分析
- 预测性分析 pattern?套用
- 规范性分析 优化/决策
e.g. 银行客户保留 根据描述性分析的结果,不正常行为的pattern,进行预测性分析,采取关系策略
仅进行数据分析是不能产生价值的,要将分析结果应用于现实~
e.g. 微软城市计算 高维数据,速度块,稀疏性→分析城市道路网中的不合理规划,划分城市功能区域,连锁店布局,出租车扒活/拼车,自行车空气质量细粒度检测……
e.g. 医疗领域的发展前景最优 患者相似性分析→疾病特征
e.g. OpenAI
风险
- 大数据有预测失误
e.g. Google 流感预测-依赖搜索 效果不佳 - 数据可能说谎
e.g. 飓风前夜 - 食品大量采购 推特数最多 - 飓风中心?wrong!
产生数据的可能是特权阶层 - 盲点
自主智能系统无法找到真正能评估其持续性影响的方法
与训练集有关
e.g. Uber L4自动驾驶车辆车祸致人死亡 - 偏见
e.g. 面部图像自动犯罪概率推断
技术挑战
- Raw data
- 关联 不等于 因果
- 弱智能:不同数据集、不同特征集合、不同应用领域迁移的问题
- 理解性(可解释性)差:图片加扰动可以大幅影响结果
- 可拓展性差:算法、数据、算力 推动AI发展的3大动力 AI算力每3.43个月需求增长一倍(超过摩尔定律)∴深度神经网络精确度接近饱和,每增长一点对算力的要求提高很多,投入产出比很低,应该考虑3个主义中的行为主义?
大数据平台的挑战
大数据平台
数据量大,数据模型规模(参数)大
Big Data, Big Model and Big System
层次
操作框架
数据集成
数据分析
计算框架//资源管理器&?
数据存储//
文件系统
大数据系统中算法只占核心一小部分,依赖数据收集、可视化、机器资源管理、存储……
Fine Lab
重点讲计算框架和数据存储
最后
以上就是傻傻康乃馨为你收集整理的大数据专题-1的全部内容,希望文章能够帮你解决大数据专题-1所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复