达成目标
1.深入理解Python面向对象相关知识点|
2.掌握开发中常用类如集合、IO流、时间日期等操作|
3.掌握Python异常处理机制,熟悉Python多线程开发|
4.掌握网络基础知识,了解Socket原理,TCP、UDP协议|
5.熟悉Python新特性,如lambda、io库等操作|
6.掌握Python基本语法完成单机系统的编写
授课内容
1. 面向对象高级部分面向对象高级部分是Python程序的核心内容,是真正成为懂Python的大牛人员的必备课程,这阶段更加全面,更加深入的介绍了面向对象编程中的、继承、调用、__init__使用等等,包含了以下技术点:
1.构造函数深度用法|
2.成员变量的内存原理&基本用法|
3.self使用|
4.全局变量|
5.List/Dict/Set/Tuple应用|
6.继承的概念|
7.销毁函数|
8.单继承、Object类|
9.方法编写|
10.函数的封装|
11.设计模式的概念|
12.内置方法|
13.Math操作|
14.多态下引用数据类型的类型转换|
15.认识常量|
16.常量详解|
17.内部调用|
18.销毁概述&特点|
19.变量作用域|
20.Python新增的方法|
21.函数说明文档|
22.标识符的命名规则|
23.常用格式符号|
24.时间转化格式符号|
25.递归概念|
26.对象的内存|
27.构造函数参数传递|
28.常用内置类与模块
2. 常用APIPython提供的常用类,用于解决一些特定问题的,程序员掌握的API越多,开发能力也就越强,包含了以下技术点:
1.API介绍|
2.Object|
3.__str__方法|
4.isinstance方法|
5.clone使用|
6.Object父类|
7.str进阶|
8.math库|
9.sys库|
10.thread库|
11.decimal|
12.混合类型|
13.date使用|
14.时间戳|
15.Py中的时间转化|
16.案例掌握|
17.计算时间前后|
18.time库|
19.时间格式转化|
20.openpyxl使用|
21.正则表式概述&匹配规则|
22.正则表达式在方法中的应用|
23.正则表达式爬取信息|
24.faker库
3. 进阶主要介绍lambda表达式、方法引用,包含了以下技术点:
1.lambda概述&实战|
2.装饰器函数|
3.魔法函数
4. 集合主要介绍了Python中的集合体系,以及数据结构,
io库等,包含了以下技术点:
1.集合概述|
2.集合的体系特点|
3.集合常用API|
4.集合的遍历方式|
5.集合存储自定义类型的对象|
6.常见数据结构|
7.List系列集合|
8.常见算法、冒泡排序、选择排序、二分算法|
9.Set系列集合|
10.Dict集合的概述&体系特点|
11.Dict集合常用API|
12.Dict集合的遍历方式|
13.Tuple|
14.io操作文件|
15.快速重命名|
16.文件遍历
5. 异常处理主要介绍了Python中虚拟机如何处理异常,以及我们自己处理异常的两种方式,包含了以下技术点:
1.异常概述、体系|
2.常见运行时异常|
3.常见编译时异常|
4.异常的默认处理流程|
5.编译时异常的处理机制|
6.运行时异常的处理机制|
7.异常处理使代码更稳健的案例|
8.自定义异常
6. 文件操作主要介绍了Python中跟文件相关的类file,以及Python中常见的流,包含了以下技术点:
1.open()函数|
2.常用方法1:判断文件类型、获取文件信息|
3.常用方法2:创建文件、删除文件|
4.常用方法3:遍历文件夹|
5.递归|
6.字符集详解、IO库概述和分类|
7.InputStream|
8.try-except|
9.txt读取、txt写入|
10.access_mode、buffering、close()方法|
11.不同编码读取乱码的问题|
12.write()方法|
13.read()方法|
14.文件定位|
15.重命名和删除文件
Django/Flask/项目实战阶段四
阶段课时:9天
技术点:41项
学习方式:线下教学
发布会:1次
达成目标
掌握快速开发模式已是必备技能,学员可基于Django/Flask+Mysql+Redis实现前后端的快速开发。
授课内容
1. Django
django快速开发框架,快速构建项目|能够掌握django-orm来完成功能的CRUD|能够掌握前后端分离开发流程
|能够掌握jwt来完成用户token校验|
能够掌握对接第三方接口阿里云安全完成对自定义内容的审核|分析项目中的数据迁移方案|企业开发模式以及规范|百度地图开放平台的使用|Git进行代码管理|独立实现点赞、评论功能|掌握前后端分离的开发模式
2. Flask
Flask的三种路由使用方式|
Request请求对象讲解|
ORM数据库|
Flask cookie 和 session|
对代码进行目录分层
项目简介技术点:11项
云快发主要是为企业销售人员提供辅助销售人员对销售线索.商机.客户进行跟进转化,提高转化效率,实现销售线索的价值最大化的服务。同时,还能为企业提供自动化营销服务;对销售业绩.销售趋势进行数据汇总分析;销售数据统计为销售管理工作提供依据;为优化公司的业务发展,提供数据支撑。
达成目标
1.了解企业软件开发流程|
2.了解进入企业后真正遇到的问题,如何解决|
3.掌握Django-ORM的使用方式|
4.掌握复杂SQL语句|
5.掌握openpyxl解析Excel|
6.掌握docx实现文档对象存储|
7.掌握基于Git进行分支操作过程
主讲解决方案
1.缓存解决方案(Redis)|
2.数据权限解决方案|
3.前后端分离认证解决方案|
4.定时任务解决方案|
5.Excel解析解决方案(openpyxl)
项目简介技术点:13项
跳动商城采用企业流行的前后端分离方式开发的一款为餐厅定制产品,包括商家管理端和用户端。商家管理端为商家提供对菜品.套餐.订单.员工等进行管理维护,能接收来单提醒.客户催单提醒.接单.派送订单,还可以查看营业数据报表。用户端供点餐用户使用,可以浏览菜品.添加购物车.下单.支付.查看订单状态.取消订单.催单等。
达成目标
1.有能力根据产品原型进行需求分析 |
2.有能力根据产品原型分析出对应接口 |
3.能够根据产品原型设计简单的数据库模型 |
4.能够根据产品原型进行接口设计 |
5.能够根据产品原型设计Model |
6.能够熟练应用Flask/PyMySQL等基础框架 |
7.熟练掌握SQL的编写 |
8.能够根据开发文档开发简单的单体项目
主讲解决方案
1.Redis|
2.购物车解决方案|
3.前后端分离开发解决方案|
4.对象存储解决方案(七牛云OSS)|
5.分布式负载均衡解决方案|
6.定时任务解决方案|
7.消息提醒解决方案(WebSocket)|
8.报表解决方案(ECharts)
数据采集/清洗阶段一
阶段课时:5天
技术点:23项
学习方式:线下
发布会:1次
达成目标
1. 爬虫能做什么?|
2.Python网络爬虫需要学习的知识和解决的问题|
3.ip地址和url详解 - 为什么网站一般不会封ip?|
4.socket编程 - 客户端和服务端通信 |
5.dom树和JavaScript操作dom树|
6.爬虫工程师基本功--计算机网络协议基础|
7.爬虫工程师基本功--前端基础|
8.爬虫前置知识讲解&爬虫初体验|
9.通过JS逆向实现论坛网站的数据抓取|
10.多线程和线程池编程-进一步改造爬虫|
11.电商网站,实现动态网网站的数据抓取|
授课内容
1. 爬虫基础
不论是爬虫方,还是去反爬的开发或者运维人员,都需要有计算机网络的相关知识,所以课程中我们单独设置了一个章节详细的讲解和爬虫相关的计算机网络的基础知识,这些知识是我们遇到问题后去分析和解决问题的理论基础。
1.爬虫采集方案分类|
2.requests功能详解|
3.正则表达式-基本语法|
4.正则表达式 - python接口|
5.beautifulsoup用法 - 父子节点和兄弟节点获取|
6.xpath基本语法 - 1|
7.xpath基本语法 - 2 |
8.css选择器提取元素|
9.pymysql的简单使用|
10. 虚拟环境的安装和配置 |
11. 虚拟环境的安装和配置 - linux |
12. 虚拟环境的安装和配置 - mac |
13. 爬虫能做什么? |
14. Python网络爬虫需要学习的知识和解决的问题 |
15. 爬虫是万能的吗? |
16. 为什么我们需要学习计算机网络 |
17. 一个完整的网络请求过程 |
18. ip地址和url详解 - 为什么网站一般不会封ip? |
19. 有哪些网络协议? |
20. 我们经常看到的tcp-ip协议是什么? |
21. socket编程 - 客户端和服务端通信 - 1 |
22. socket编程 - 客户端和服务端通信-2 |
23. 基于tcp自定义第一个协议 - 模拟qq服务器和客户端 - 1 |
24. 基于tcp自定义第一个协议 - 模拟qq服务器和客户端 - 2 |
25. 基于tcp自定义第一个协议 - 模拟qq服务器和客户端 - 3 |
26. 正确认识http协议 - 1 |
27. 正确认识http协议 -2 |
28. 本章课后作业 |
2. TCP与HTTP知识
1. 从零开始 系统入门python爬虫工程师-课程导学 |
2. python的安装 |
3. python的安装和配置 - linux |
4. python的安装和配置 - mac |
5. pycharm的安装和配置 (必看!!) |
6. 课程中用到的pycharm快捷键(必看!!!) |
7. mysql和navicat的安装和使用 |
8. mysql和navicat的安装和配置 - linux |
9. mysql和navicat的安装和配置 - mac |
10. 虚拟环境的安装和配置 |
11. 虚拟环境的安装和配置 - linux |
12. 虚拟环境的安装和配置 - mac |
13. 爬虫能做什么? |
14. Python网络爬虫需要学习的知识和解决的问题 |
15. 爬虫是万能的吗? |
16. 为什么我们需要学习计算机网络 |
17. 一个完整的网络请求过程 |
18. ip地址和url详解 - 为什么网站一般不会封ip? |
19. 有哪些网络协议? |
20. 我们经常看到的tcp-ip协议是什么? |
21. socket编程 - 客户端和服务端通信 - 1 |
22. socket编程 - 客户端和服务端通信-2 |
23. 基于tcp自定义第一个协议 - 模拟qq服务器和客户端 - 1 |
24. 基于tcp自定义第一个协议 - 模拟qq服务器和客户端 - 2 |
25. 基于tcp自定义第一个协议 - 模拟qq服务器和客户端 - 3 |
26. 正确认识http协议 - 1 |
27. 正确认识http协议 -2 |
28. 本章课后作业 |
29. html、css和JavaScript之间的关系...1 |
30. 浏览器的加载过程 |
3. 爬虫进阶
1. dom树和JavaScript操作dom树 |
2. ajax、json和xml |
3. 动态网页和静态网页 |
4. GET、POST方法和Content-type详解 |
5. ajax方式提交表单数据 |
6. 本章课后作业。 |
7. 爬虫采集方案分类 |
8. requests功能详解 |
9. 正则表达式-基本语法 |
10. 正则表达式 - python接口 |
11. beautifulsoup用法 - find方法 |
12. beautifulsoup用法 - 父子节点和兄弟节点获取 |
13. xpath基本语法 - 1 |
14. xpath基本语法 - 2 |
15. css选择器提取元素 |
16. 2021更新重录说明 |
17. pymysql的简单使用 |
18. peewee自动生成表 |
19. 通过peewee对数据进行增、删、改、查 |
20. 目标网站需求分析 |
21. 表结构定义 |
22. 通过headers去识别反爬 |
23. 分析headers中的签名算法 |
24. 通过python调用js函数生成随机值 |
25. 模拟csdn生成参数签名防止反爬 |
26. 通过签名的参数请求正确的数据 |
27. 封装签名方法获取想要的数据 |
28. 获取所有的二级分类的url |
29. 分析列表页的数据并解析 |
30. 解析列表页数据并进行下一页策略抓取 |
4. 多线程爬取
1. 抽取topic数据入库到mysql中 |
2. 解析帖子回复和用户信息 |
3. 签名中的参数顺序至关重要 |
4. 后续章节学习的说明 |
5. 并发和并行 |
6. 多线程编程 |
7. python的GIL真的会导致多线程慢吗? |
8. 线程同步 - Lock |
9. 使用多线程重构csdn爬虫 - 1 |
10. 使用多线程重构csdn爬虫 - 2 |
11. 使用多线程和Queue重构csdn爬虫 |
12. 进一步的思考 - 课后作业 |
13. ThreadPoolExecutor的基本功能 |
14. ThreadPoolExecutor线程池重构爬虫 |
15. 如果合适的话使用 asyncio 做爬虫的优势是什么? |
16. 需求分析 |
17. 表结构设计 |
18. chrome的f12后的调试工具栏介绍 |
19. 京东的商品详情页接口分析 |
20. 通过requests完成京东详情页数据的获取 |
21. selenium的安装和使用 |
22. 通过selenium解析商品详情页 - 1 |
23. 通过selenium解析商品详情页 - 2 |
24. 通过selenium解析商品详情页 - 3 |
25. 通过selenium解析商品详情页 - 4 |
26. 通过selenium解析商品详情页 - 5 |
27. chromedirver的headless模式和设置不加载图片 |
28. 课后作业和总结 |
29. 章节目标和为什么需要模拟登录 |
30. 模拟登录的原理- session和cookie的原理 |
5. 反爬
1. requests模拟登录豆瓣 |
2. 将cookie保存到文件中并从文件中读取cookie |
3. selenium模拟登录豆瓣 |
4. 滑动验证码识别 和selenium模拟登录B站 - 1 |
5. 滑动验证码识别 和selenium模拟登录B站 - 2 |
6. 滑动验证码识别 和selenium模拟登录B站 - 3 |
7. 第三方验证码识别服务商推荐camproj |
8. 课后作业和总结 |
9. 【讨论题】滑动验证码的解决办法 |
10. 词云热力图应该如何实现? |
11. 反爬和反反爬 |
12. 常见的反爬方案 |
13. 通过user-agent反爬 |
14. 通过收费的代理ip绕过反爬 - 1 |
15. 通过收费的代理ip绕过反爬 - 2 |
16. 通过一个实际的案例分析一下反爬策略是什么 |
17. 新建scrapy项目 |
18. 通过pycharm调试scrapy |
19. 编写spider的逻辑 |
20. item和pipeline |
21. scrapy集成随机useragent和ip代理 |
22. 课程总结 |
23. 成为高级爬虫工程师的学习建议 |
数据分析阶段二
阶段课时:5天
案例:16项
技术点:33项
学习方式:知识点配合大量用心设计的案例,助你一臂之力!
发布会:2次
学习目标
1. 掌握Numpy库的使用|
2. Pandas|
3. Matplotlib|
4. pyecharts|
4. 熟练使用BI可视化工具
主讲内容
1. Numpy开源的数值计算扩展:
01_array概念和作用|
02_numpy数据类型|
03_shape|
04_ndim/flatten|
05_加数运算令|
06_where|
07_分组聚合|
08_广播|
09_.T函数
2. Pandas
基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas
纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
01_DataFrame基本操作|
02_Series基本操作|
03_Index概念|
04_CSV/Excel/SQL读取|
05_loc/iloc|
06_at/iat|
07_is_in/not_in|
08_综合案例
SQL阶段一
阶段课时:7天
案例:16项
技术点:33项
学习方式:知识点配合大量用心设计的案例,助你一臂之力!
发布会:2次
学习目标
1. 掌握MySQL数据库的使用|
2. 掌握SQL语法|
3. 掌握Kettle数据迁移工具的使用|
4. 熟练使用BI可视化工具|
5. 对数据开发有一定认知,掌握BI工程师所具备的基本技能
主讲内容
1. MySQL与SQL零基础小白通过MySQL数据库,掌握核心必备SQL,包含了以下技术点:
01_数据库概念和作用|
02_MySQL数据类型|
03_数据完整性和约束|
04_数据库、表基本操作命令|
05_表数据操作命令|
06_where子句|
07_分组聚合|
08_连接查询|
09_外键的使用
2. Kettle与BI工具使用Kettle做数据迁移,通过BI工具展示excel、MySQL中的数据,包含了以下技术点:
01_Kettle基本操作|
02_Kettle数据转换|
03_Kettle使用SQL脚本组件|
04_kettle Job开发|
05_FineBI基本操作|
06_FineBI常用图表|
07_FineBI仪表板|
08_综合案例
Hadoop技术栈阶段一
课时:2天
技术点:12项
测验:1次
学习方式:线下面授
学习目标
1.掌握Linux常用命令,为数据开发后续学习打下的良好基础|
2.掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能顾搭建Hadoop高可用HA集群|
3.掌握Hive的使用和调优|
4.具备Hadoop开发能力、离线数据仓库开发能力|
5.能够完成基本构建企业级数仓
主讲内容
1. Linux掌握Linux操作系统常用命令和权限管理,包含了以下技术点:
01_Linux命令使用|
02_Linux命令选项的使用|
03_远程登录和远程拷贝|
04_Linux权限管理|
05_vi编辑器使用|
06_集群搭建准备
2. 大数据基础和硬件介绍进一步阐述大数据特点与分布式思想,知识点由浅入深,包含了以下技术点:
01_大数据的特点|
02_分布式存储概念|
03_分布式计算的概念|
04_服务器种类介绍、机架、交换机|
05_网络拓扑、Raid、IDC数据中心
3. Zookeeper分布式软件管家,实现了集群管理与leader选举,包含了以下技术点:
01_Zookeeper的应用场景|
02_架构和原理|
03_存储模型|
04_选举机制|
05_客户端操作|
06_ZK集群搭建
4. Hive基础数据仓库Hive,实现企业级数仓必备工具,包含以下知识点:
01_HQL操作|
02_数据类型|
03_分区、分桶、临时表|
04_explain执行计划详解
5. Hive高阶数据仓库Hive高阶原理和架构深入,实现企业级数仓优化,包含以下知识点:
01_Hive原理和架构|
02_Meta Store服务|
03_HiveServer内置函数|
04_自定义UDF和UDAF|
05_数据压缩、存储格式、自动化脚本、常见性能优化
Spark技术栈阶段四
课时:2天
技术点:108项
测验:1次
发布会:1次
学习方式:线下面授
学习目标
1.掌握Spark的RDD、DAG、CheckPoint等设计思想|
2.掌握SparkSQL结构化数据处理,Spark On Hive|
3.掌握Structured Streaming整合多数据源完成实时数据处理|
4.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力
主讲内容
1. Spark基础本阶段学习Spark环境搭建及以下知识点:
01_Spark基础环境搭建|
02_Spark的Standalone环境搭建|
03_Spark的StandaloneHA搭建|
04_SparkOnYarn环境搭建
2. Spark Core整个spark框架核心部分,掌握框架内部设计思想,数据流转步骤,是学习spark的基础模块,包含了以下技术点:
01_Spark架构和原理(运行机制、Driver和Executor、spark任务提交流程)|
02_RDD开发和原理(Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制)广播变量
|
03_DAG原理(DAG思想、DAG的生成、DAG的处理过程)
3. Spark SQL学习spark框架的SQL操作,spark与Hive等外部数据源的整合操作,包含了以下技术点:
01_Spark SQL架构和原理|
02_DataFrame、DataSet DSL和SQL开发|
03_Spark多数据源整合(txt、CSV、Json、parquet、JDBC、Hive)|
04_Spark SQL执行计划原理|
05_Spark SQL性能调优
4. SparkSQL案例践行场景式教学,运用了Spark阶段知识点,使用lambda加解决数据分析的应用,包含了以下技术点:
实战:百万GB内存计算阶段五
课时:3天技术点:88项学习方式:线下面授
学习目标
1.快速搭建保险行业大数据平台|
2.基于Hive+Spark SQL搭建离线数据仓库|
3.基于SparkSQL应对轻松应对复杂的迭代计算|
4.完成基于国内头部保险公司大数据项目开发|
5.掌握基于Spark分析12亿报单表和8千万客户等数据|
6.对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示|
7.离线数仓项目实战|
8.用户画像项目实战
"平安好车主"项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,
时效大大提高,增强保险公司的商业信誉。项目将多部门的业务数据库同步到Hive数据集市,
使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,
提供给财务部门收费或支出,最后对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。
主讲解决方案
项目核心架构和业务流程、Hive数仓建模 、Sqoop数据同步开发
DolphinScheduler任务调度、使用lag,sum等窗口函数 、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用
、指标汇总计算 、Shuffle优化、用户画像解决方案。
主讲知识点
基于Spark轻松应对保险复杂的迭代计算、基于SparkSQL完成用户画像实战、基于ES完成标签存储与检索
微玛特-千亿离线数仓项目阶段六
阶段课时:5天
技术点:33项
学习方式:行业大牛亲自讲解,企业级标准!
发布会:2次
项目简介技术点:80项
微玛特-离线数仓
基于一家大型连锁超市研发的大数据分析平台。黑马深度使用Presto的项目,为后续Presto相关课程的研发打下了坚实的基础,也为学员的就业拓宽了道路;真实的数据结构,复杂的SQL实现过程,学生学习以后可以达到离线数仓的高级开发水平。
达成目标
1.掌握零售行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程|
2.拉链表的具体应用 |
3.Presto使用 |
4.能够根据产品原型进行接口设计 |
5.提供新零售大型商超集团的数据存储分析以及服务监控方案 |
6.海量数据场景下如何优化配置|
7.熟练掌握SQL的编写 |
8.能够根据开发文档开发简单的单体项目 |
9.能够对前端代码进行打包和运行 |
主讲解决方案
掌握离线数仓的分层与建模、大数据量场景下如何优化配置,拉链表的具体应用,新增数据的抽取和分析,更新数据的抽取和分析,以及Hive函数的具体应用等。ClouderaManager可视化、自动部署和配置、Git的CodeReview功能保证项目高质量
离线数仓的分层与建模 项目涉及20多个主题,100多个指标场景 帆软BI企业级报表展示
主讲知识点
1.大数据部署运维:Cloudera Manager |
2.分析决策需求:数据仓库 |
3.数据采集:requests |
4.数据分析:Hive |
5.历史数据快照:拉链表 |
6.采用Git进行版本管理 |
6.数据更新后的统计分析:拉链表 |
7.OLAP系统存储:MySQL |
8.数据调度:oozie+shell
分布式存储系统阶段七
阶段课时:1天
技术点:21项
学习方式:线下
发布会:2次
主讲内容
1. HDFS分布式文件系统,解决了海量数据存储与容错,包含了以下技术点:
01_HDFS设计的特点|
02_Master-Slave架构|
03_Block块存储、RF拷贝因子、机架感知|
04_Block拷贝策略、读写流程|
05_HDFS Federation、HDFS Snapshots、NameNode HA架构和原理|
06_HDFS管理员常用操作、HDFS权限控制|
07_HDFS普通集群以及HA集群搭建
2. MapReduce分布式计算系统,解决海量数据的计算,包含了以下技术点:
01_MapReduce架构和原理|
02_Split机制|
03_MapReduce并行度|
04_Combiner机制|
05_Partition机制、自定义Partition|
06_MapReduce序列化、自定义排序、数据压缩
3. YARN分布式资源调度管理器,管理服务器软件资源,包含了以下技术点:
01_Yarn原理和架构|
02_Yarn高可用|
03_Container资源的封装(CPU、内存和IO)|
04_资源调度策略(FIFO、Fair和Capacity)|
05_YARN高可用模式搭建
办公自动化阶段八
阶段课时:3天
技术点:21项
学习方式:线下
发布会:2次
主讲方向
自动化运维,实际上需要利用一些开源的自动化工具如:ansible、saltstark、puppet 等这些比较常见工具, 网页自动登录, Excel数据处理,
API调用与数据提取,
PDF转换为图片, 智能文本分析等等功能;
主讲内容
1.常见文件操作类库
掌握openpyxl库|
xlrd|
xlwt|
掌握pymysql库|
掌握re库|
掌握Linux系统常用指令|
掌握Scrapy库|
Linux下Py环境安装|
定时任务部署|
shutil|
docx库|
pdfkit
2. seleniumSelenium与QTP,Selenium工具套装,Selenium
IDE,Selenium IDE定位策略,Selenium WebDriver,WebDriver功能
Selenium定位策略(通过CSS)|
Selenium定位策略(通过Xpath)|
捕捉屏幕截图|
用户交互|
点击按钮模拟|
拖放等
计算机视觉阶段一
课时:3天
技术点:31项
学习方式:线下面授
学习目标
1.熟悉深度学习主要及前沿网络模型的架构原理及在实际业务场景中的应用|2.掌握深度学习在计算机视觉中的应用,包括但不限于分割检测识别等等,3.掌握实际工作中深度学习的具体流程,数据及标注处理,建模训练,及模型部署应用等|4.实现物体(人体,人脸,通用目标)检测,跟踪与识别,道路交通及工业环境险情发现等多领域的深度学习解决方案,|5.能够对图像处理.人脸算法,或者对于各种深度学习框架实现的算法进行调优|6.可胜任深度学习算法工程师,图像与计算机视觉算法工程师等,并持续优化与迭代算法
主讲内容
1. 神经网络该模块主要介绍深度学习的基础知识,神经网络的构成,损失函数,优化方法等,及反向传播算法等内容
1.神经网络基础:神经网络的构成、激活函数、损失函数、优化方法及正则化|2.反向传播原理:梯度下降算法、链式法则、反向传播算法、改善反向传播算法性能的迭代法|3.深度学习正则化与算法优化:L1、L2、DroupOut、BN、SGD、RMSProp、Adagrad、Adam|4.实现多层神经网络案例
2. 图像与视觉处理介绍该模块主要介绍计算机视觉的定义,发展历史及应用场景
01_计算机视觉定义、计算机视觉发展历史|02_计算机视觉技术和应用场景、计算机视觉知识树和几大任务
3. 目标分类和经典CV网络该模块主要介绍卷积神经网络CNN,经典的网络架构,并通过分类案例介绍模型的实践方法
1.CNN:卷积的计算方法,多通道卷积,多卷积和卷积,池化层和全连接层|2.卷积网络结构:LeNet5、AlexNet、VGG、Inception/GoogleNet、残差网|3.目标分类实战案例:ImageNet分类|4.Apache
Flink极客挑战赛——垃圾图片分类
4. 目标检测和经典CV网络该模块主要介绍目标检测任务,常见数据集,及经典的两阶段和单阶段的目标检测算法,并通过目标检测案例介绍实践方法
1.目标检测任务与数据集介绍:检测任务目的、常见数据集、应用场景|2.RCNN:交并比、map、非极大抑制NMS、正负样本|3.SPPNet:SPP层映射;FastRCNN:ROI
Pooling|4.FasterRCNN:RPN、代价函数、训练流程与结果分析、FPN与FasterRCNN结合|5.YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5|6.结构与工作流程、代价函数、anchor、维度聚类、细粒度与多尺度特征、先验框与代价函数|7.SSD:Detector
& classifier、SSD代价函数、特征金字塔|8.目标检测实战案例:COCO数据集上目标检测
5. 目标分割和经典CV网络该模块介绍图像分割的基本任务,语义分割和实例分割,及常用的网络架构,并通过MaskRCNN完成图像的实例分割
1.目标分割任务类型、数据集|2.全卷积FCN网络:网络结构、跳级连接、语义分割评价标准、结果分析|3.U-Net:拼接特征向量|4.Dilated
Convolutions:聚合多尺度的信息、context
module|5.SegNet:金字塔池化模块|6.Deeplab:串行部署
ASPP|7.Mask-RCNN:结构介绍、ROI
Align与Pooling对比、代价函数介绍、端到端联合训练|8.目标分割实战案例
6. 人脸/物体识别常见类库
1.face_recognition|2.Opencv|3.Openvss|4.Faceservice
用户画像阶段二
课时:3天
技术点:108项
测验:1次
发布会:1次
学习方式:线下面授
学习目标
面对巨量的用户交易数据,我们如何做数据分析?常规地做法是做用户画像,比如分别对性别、年龄、受教育水平、婚姻状况等做描述统计分析,研究不同的用户特征对于交易金额的影响。
主讲内容
1. 用户画像解决方案
用户画像解决方案,主要针对于保险行业完成用户标签设计,提供了全行业解决方案,课程采用由浅入深,层层递进的讲解方式, 让你轻松掌握企业级用户画像的使用,
使用SparkSQL+ES+DS构建企业级用户画像。
1. SparkSQL整合ES自定义数据源 2. DS任务界面化调度 3. 用户画像标签构建规则 4. 用户画像规则类标签构建 5.
用户画像统计类标签构建
CHATGPT阶段三
课时:2天
技术点:31项
测验:1次
学习方式:线下面授
学习目标
ChatGPT基于自然语言处理技术和神经网络模型,可以学习和理解人类语言的语法和语义,并能够生成具有连贯性和逻辑性的自然语言文本
主讲内容
1. ChatGPT入门主要学习ChatGPT注册、使用及Python调用ChatGPT,包含以下技术点:
ChatGPT背景介绍|如何使用ChatGPT|ChatGPT入门程序|ChatGPT实际应用场景案例
2. ChatGPT原理详解主要学习从GPT到ChatGPT原理详解
ChatGPT本质|GPT系列模型介绍|GPT-1详解|GPT-2详解|GPT-3详解|ChatGPT原理详解
3. ChatGPT项目实战主要以实际业务为驱动完成ChatGPT项目实战
项目背景|数据预处理|基于ChatGPT完成模型搭建|模型结果分析
4. 基于大型预训练模型搭建聊天机器人学习从0-1搭建聊天机器人
i语料处理方法|文本分词方法|闲聊机器人实现|基于Seq2Seq基础模型实现闲聊机器人|基于预训练模型优化|模型部署上线
5. 聊天机器人和问答系统主要学习完整的聊天机器人项目
解决方案列表|项目架构及数据采集|命名实体识别|对话系统
机器学习阶段四
课时:3天
技术点:31项
测验:1次
学习方式:线下面授
学习目标
1.掌握机器学习算法基本原理| 2.掌握使用机器学习模型训练的基本流程| 3.掌握Sklearn,Jieba,Gensim等常用机器学习相关开源库的使用|
4.熟练使用机器学习相关算法进行预测分析| 5.掌握数据分析常用思维方法| 6.熟练使用各种数据分析工具进行数据提取与数据展示|
7.熟练运用常用数据分析模型解决业务问题
主讲内容
1. 机器学习该部分主要学习机器学习基础理论,包含以下技术点:
01_人工智能概述|
02_机器学习开发流程和用到的数据介绍|
03_特征工程介绍和小结|
04_机器学习算法分类|
05_机器学习模型评估|
06_数据分析与机器学习
2. K近邻算法该部分主要学习机器学习KNN算法及实战,包含以下技术点:
01_K近邻算法基本原理|
02_K近邻算法进行分类预测|
03_sklearn实现knn|
04_训练集测试集划分|
05_分类算法的评估|
06_归一化和标准化|
07_超参数搜索|
08_K近邻算法总结
3. 线性回归该部分主要学习机器学习线性回归算法及实战,包含以下技术点:
01_线性回归简介|
02_线性回归API使用初步|
03_导数回顾|
04_线性回归的损失函数和优化方法|
05_梯度下降推导|
06_波士顿房价预测案例|
07_欠拟合和过拟合|
08_模型的保存和加载|
09_线性回归应用-回归分析
4. 逻辑回归该部分主要学习机器学习逻辑回归算法及实战,包含以下技术点:
01_逻辑回归简介|
02_逻辑回归API应用案例|
03_分类算法评价方法|
04_逻辑回归应用_分类分析
5. 聚类算法该部分主要学习机器学习聚类算法及实战,包含以下技术点:
01_聚类算法的概念|
02_聚类算法API的使用|
03_聚类算法实现原理|
04_聚类算法的评估|
05_聚类算法案例
6. 决策树该部分主要学习机器学习决策树算法及实战,包含以下技术点:
01_决策树算法简介|
02_ 决策树分类原理|
03_特征工程-特征提取|
04_ 决策树算法api|
05_ 决策树案例
7. 集成学习该部分主要学习机器学习集成算法算法及实战,包含以下技术点:
01 集成学习算法简介|
02 Bagging和随机森林|
03 随机森林案例|
04 Boosting介绍|
05 GBDT介绍|
06 XGBOOST介绍|
07 LightGBM介绍
8. 机器学习进阶算法该部分主要学习机器学习高阶算法及实战,包含以下技术点:
9. 用户画像案例多场景项目实战部分,包含以下技术点:
01_用户行为分析|
02_用户画像标签分类|
03_统计类标签|
04_用户分群模型|
05_用户流失预测
10. 电商运营数据建模分析案例电商多场景项目实战部分,包含以下技术点:
01_零售销售报表|
02_数据探索性分析|
03_特征工程|
04_模型训练与特征优化|
05_模型部署上线
深度学习阶段二
课时:5天
技术点:100项
测验:1次
学习方式:线下面授
学习目标
1.pytorch工具处理神经网络涉及的关键点|2.掌握神经网络基础知识|3.掌握反向传播原理|3.了解深度学习正则化与算法优化
主讲内容
1. 神经网络基础该部分主要学习神经网络基础,包含以下技术点:
01_神经网络基础:神经网络的构成、激活函数、损失函数、优化方法及正则化|02_反向传播原理:梯度下降算法、链式法则、反向传播算法、改善反向传播算法性能的迭代法|03_深度学习正则化与算法优化:L1、L2、DroupOut、BN、SGD、RMSProp、Adagrad、Adam;04_实现多层神经网络案例|
2. 深度学习多框架对比该部分主要学习深度学习多框架对比,包含以下技术点:
01_Pytorch|
02_Tensorflow|
03_MxNet|
04_paddlepaddle|
3. Pytorch框架该部分主要学习Pytorch深度学习框架,包含以下技术点:
01_Pytorch介绍|02_张量概念|03_张量运算|04_反向传播|05_梯度,自动梯度|06_参数更新|07_数据加载器|08_迭代数据集|
量化交易阶段五
课时:3天
技术点:21项
测验:1次
学习方式:线下面授
学习目标
在当前金融市场中,数据分析和量化交易已经成为最重要的竞争优势。Python 作为一种强大的编程语言,提供了丰富的工具和库,使得量化金融分析和交易变得更加容易。
主讲内容
1. Part1
ETF双底交易策略 数据获取和处理 订阅和下载金融市场数据 数据清洗和预处理 数据标准化和归一化 数据可视化 绘制股票价格走势图 绘制K线图和蜡烛图
绘制交易量柱状图 计算股票价格的平均值和标准差 计算股票价格的相关系数 进行回归分析和时间序列分析
2. Part2
BP级内存设计 seaborn:数据可视化库 scipy:科学计算库 statsmodels:统计模型库 scikit-learn:机器学习库
pyfolio:投资组合分析库 zipline:回测框架 backtrader:回测框架
实时计算:蔚来汽车计算引擎阶段六
课时:2天技术点:10项发布会:1次学习方式:线下面授
学习目标
1.NIO Power 业务背景|
2. NIO Power 设备运维解决方案|
3. PHM 技术面临的挑战|
4. PHM 前沿技术|
5. 智能运维PHM技术应⽤案例|
6.FlinkSQL流批一体架构实现实时数据计算|
7.使用Apache Doris进行海量多维分析|
8.掌握数据报表分析|
9.掌握业务数据实时大屏场景实现
基于Flink+Hudi湖仓一体技术架构,实现了在线视频行业实时数据处理和分析。项目采用流处理计算引擎Flink,实时处理千万数据量的视频流数据,基于FlinkCDC完成MySQL等数据源的数据采集,通过Hudi
On Hive构建湖仓一体架构,结合数据湖和数据仓库优势,建立湖仓一体化。
主讲解决方案
Flink,FlinkSQL,FlinkCDC,Doris,Hudi,Hudi,on
Hive,FIneBI
主讲知识点
采集超过千万条在线视频的数据,实时高性能海量数据分析与存储业务数据实时大屏场景实现。
Scrapy企业级应用阶段一
阶段课时:2天
技术点:23项
学习方式:线下
发布会:1次
技术简介技术点:118项
Scrapy 是一个为了抓取网页数据、提取结构性数据而编写的应用框架,该框架是封装的,包含 request (异步调度和处理)、下载器(多线程的
Downloader)、解析器(selector)和 twisted(异步处理)等。对于网站的内容爬取,其速度非常快捷。
达成目标
1. python分布式爬虫打造搜索引擎简介 |
2. scrapy安装和简单使用 |
3. navicat的安装和使用 |
4. windows和linux下部署所需环境 |
5. 虚拟环境的安装和配置 |
6. 技术选型 爬虫能做什么 |
7. 正则表达式-1 |
8. 正则表达式-2 |
9. 正则表达式-3 |
10. 深度优先和广度优先原理 |
11. url去重方法 |
12. 彻底搞清楚unicode和utf8编码 |
13. 重录说明(很重要!!!) |
14. scrapy安装和配置 |
15. 需求分析 |
16. pycharm中调试scrapy源码 |
17. xpath基础语法 |
18. xpath提取元素 |
19. css选择器 |
20. . cnblogs模拟登录(新增内容) |
21. 编写spider完成抓取过程 - 1 |
22. 编写spider完成抓取过程 - 2 |
23. scrapy中为什么要使用yield |
24. 提取详情页信息 |
25. 提取详情页信息 |
26. items的定义和使用 - 1 |
27. items的定义和使用 - 2 |
28. scrapy配置图片下载 |
29. items数据写入到json文件中 |
30. mysql表结构设计 |
31. pipeline数据库保存 |
32. 异步方式入库mysql |
33. 数据插入主键冲突的解决方法 |
34. itemloader提取信息 |
35. itemloader提取信息 |
36. 大规模抓取图片下载出错的问题 |
37. 有没有方法可以比较准确的解析出 title 和正文内容 |
38. session和cookie自动登录机制 |
39. 课程如何应对网站反爬变化? |
40. 使用opencv识别滑动验证码的环境准备 |
41. opencv滑动验证码识别原理 |
42. 滑动验证码识别集成到scrapy中 |
43. 通过机器学习平台训练滑动验证码模型 |
44. 发布训练模型并远程调用识别 |
45. 知乎分析以及数据表设计1 |
46. 知乎分析以及数据表设计 - 2 |
47. item loder方式提取question - 1 |
48. item loder方式提取question - 2 |
49. item loder方式提取question - 3 |
50. 知乎spider爬虫逻辑的实现以及answer的提取 - 1 |
51. 知乎spider爬虫逻辑的实现以及answer的提取 - 2 |
52. 保存数据到mysql中 -1 |
53. 保存数据到mysql中 -2 |
54. 保存数据到mysql中 -3 |
55. 如何将数据的保存和抓取独立出来? |
56. 数据表结构设计 |
57. CrawlSpider源码分析-新建CrawlSpider与settings配置 |
58. CrawlSpider源码分析 |
59. Rule和LinkExtractor使用 |
60. 网页302之后的模拟登录和cookie传递(网站需要登录时学习本视频教程) |
61. item loader方式解析职位 |
62. 职位数据入库-1 |
63. 职位信息入库-2 |
64. 网站反爬突破 |
65. 爬虫和反爬的对抗过程以及策略 |
66. scrapy架构源码分析 |
67. Requests和Response介绍 |
68. 通过downloadmiddleware随机更换user-agent-1 |
69. 通过downloadmiddleware随机更换user-agent - 2 |
70. scrapy实现ip代理池 - 1 |
71. scrapy实现ip代理池 - 2 |
72. scrapy实现ip代理池 - 3 |
73. 云打码实现验证码识别 |
74. cookie禁用、自动限速、自定义spider的settings |
75. selenium动态网页请求与模拟登录知乎 |
76. selenium模拟登录微博, 模拟鼠标下拉 |
77. chromedriver不加载图片、phantomjs获取动态网页 |
78. selenium集成到scrapy中 |
79. 其余动态网页获取技术介绍-chrome无界面运行、scrapy-splash、selenium-grid, splinter
|
80. scrapy的暂停与重启 |
81. scrapy url去重原理 |
82. scrapy telnet服务 |
83. spider middleware 详解 |
84. scrapy的数据收集 |
85. scrapy信号详解 |
86. scrapy扩展开发 |
87. 分布式爬虫要点 |
88. redis基础知识 - 1 |
89. redis基础知识 - 2 |
90. scrapy-redis编写分布式爬虫代码 |
91. scrapy源码解析-connection.py、defaults.py- |
92. scrapy-redis源码剖析-dupefilter.py- |
93. scrapy-redis源码剖析- pipelines.py、 queue.py- |
94. scrapy-redis源码分析- scheduler.py、spider.py- |
95. 集成bloomfilter到scrapy-redis中 |
96. 什么是cookie池? |
97. cookie池系统设计 |
98. 实现cookie池-1 |
99. 实现cookie池-2 |
100. 改造login方法 - 1 |
101. 改造login方法 - 2 |
102. 改造login方法-3 |
103. 改造login方法-4 |
104. 通过抽象基类实现网站轻松接入 |
105. 实现检测网站cookie是否有效 |
106. 如何选择redis的数据结构来保存cookie |
107. cookie管理器的实现 |
108. 启动cookie池服务 |
109. 将cookie集成到爬虫项目中 |
110. cookie架构设计改进意见 |
111. 滑动验证码的识别思路 |
112. 验证码截屏-1 |
113. 验证码截屏-2 |
114. 计算出滑动的距离 |
115. 计算滑动轨迹 |
116. 增量爬虫需要解决的问题 |
117. 通过修改scrapy-redis完成增量抓取 -1 |
118. 通过修改scrapy-redis完成增量抓取-2 |
119. 爬虫数据更新 |
120. elasticsearch介绍 |
121. elasticsearch安装 |
122. elasticsearch-head插件以及kibana的安装 |
123. elasticsearch的基本概念 |
124. 倒排索引 |
125. elasticsearch 基本的索引和文档CRUD操作 |
126. elasticsearch的mget和bulk批量操作 |
127. elasticsearch的mapping映射管理 |
128. elasticsearch的简单查询 - 1 |
129. elasticsearch的简单查询 - 2 |
130. elasticsearch的bool组合查询 |
131. scrapy写入数据到elasticsearch中 - 1 |
132. scrapy写入数据到elasticsearch中 - 2 |
133. es完成搜索建议-搜索建议字段保存 - 1 |
134. es完成搜索建议-搜索建议字段保存 - 2 |
135. django实现elasticsearch的搜索建议 - 1 |
136. django实现elasticsearch的搜索建议 - 2 |
137. django实现elasticsearch的搜索功能 -1 |
138. django实现elasticsearch的搜索功能 -2 |
139. django实现搜索结果分页 |
140. 搜索记录、热门搜索功能实现 - 1 |
141. 搜索记录、热门搜索功能实现 - 2 |
142. scrapyd部署scrapy项目 |
143. 课程总结 |
144. 【讨论题】你认为什么是 JS 逆向? |
145. 如何将 nodejs 服务集成进来呢? |
146. 【讨论题】字体反爬应该如何解析? |
Django企业级应用阶段二
阶段课时:5天
案例:16项
技术点:43项
简介
一个Django的实战项目,以在线教育网站为案例,带你吃透Django的各个知识点,不同于其它课程的是,本课程采用Django+xadmin完成项目,这套技术组合,可助你解决大部分Python网站后端问题,解决企业的实际需求!
授课内容
1. 强力django+杀手级xadmin 打造上线标准的在线教育平台 |
2. 课程中会用到的开发环境介绍 |
3. 如何在windows上安装linux-上 |
4. 如何在windows上安装linux-下 |
5. python的安装和配置 |
6. 虚拟环境的安装和配置 |
7. mysql和navicat的安装和配置 |
8. pycharm的安装和配置 |
9. 课程中会用到的开发环境介绍 |
10. python、mysql、navicat和pycharm的安装和配置 |
11. 开发环境搭建指南-mac |
12. navicat的简单使用 |
13. pycharm简单介绍(很重要!!!) |
14. 如何在pycharm中调试代码 |
15. pycharm中常用的快捷键(很重要!!!) |
16. django目录结构解析-1 |
17. django目录结构解析-2 |
18. 配置url和静态文件 |
19. orm和model表设计-1 |
20. orm和model表设计-2 |
21. model进行增、删、改、查-1 |
22. model进行增、删、改、查-2 |
23. 从前端html页面提取出数据并保存到数据库中 |
24. django的template数据展示 |
25. 需求分析和app设计 |
26. 新建项目和apps |
27. 自定义userprofile表覆盖默认的user表 |
28. 如何避免循环import不同apps中的model |
29. course相关的表结构设计 - 1 |
30. course相关的表结构设计 - 2 |
31. 课程机构相关的表结构设计 |
32. operations相关表结构设计 |
33. 通过migrate生成表和本章小结 |
34. 有没有方法既可以使用外键又不定死外键类型? |
35. 通过django的admin快速搭建后台管理系统 |
36. 更加强大的后台管理系统-xadmin的配置 |
37. 解决xadmin新建用户出现手机号码重复的问题 |
38. xadmin快速配置列表、搜索、过滤等功能 |
39. 快速注册model到xadmin中 |
40. xadmin全局配置和本章总结 |
41. 配置首页和登录页面 |
42. 通过django内置的login完成登录 |
43. 登录成功之后的思考 |
44. 通过form表单对登录框进行验证 |
45. 退出登录接口开发 |
46. 通过云片网发送短信验证码 |
47. 通过django-captcha-simple显示图片验证码 |
48. 图片验证码是如何显示在前端页面中的 |
49. ajax方式完成短信验证码的发送 - 1 |
50. ajax方式完成短信验证码的发送 - 2 |
51. 通过redis记录发送的验证码 |
52. 手机验证码动态登录 - 1 |
53. 手机验证码动态登录 - 2 |
54. 手机注册功能 - 1 |
55. 手机注册功能 - 2 |
56. cookie和session的登录原理和区别 |
57. 使用了django的什么功能来创建这么多的form表单呢 |
58. 使用template的static重新引入静态文件 |
59. 通过django的template继承机制重构html页面 |
60. 显示课程机构列表页数据 - 1 |
61. 显示课程机构列表页数据 - 2 |
62. 课程机构经典课程展示- 通过model反向去外键关联数据 |
63. 课程机构分页 |
64. 课程机构的筛选 |
65. 通过order_by对课程机构排序 |
66. 授课机构排名 - 通过forloop显示索引 |
67. 通过url的include机制重新设计url |
68. 通过modelform完成用户咨询提交..1 |
69. 课程机构详情页 |
70. 课程机构详情页2 |
71. 机构讲师列表 |
72. 机构课程和机构介绍页面开发 |
73. 课程机构收藏 - 1 |
74. 课程机构收藏 - 2 |
75. django 是否有内置的允许我们将常用逻辑封装好的功能 |
76. 课程列表页开发 - 1 |
77. 课程列表页开发 - 2 |
78. 热门课程推荐 |
79. 课程详情页面显示 |
80. 课程详情页的收藏和相关课程推荐 - 1 |
81. 课程详情页的收藏和相关课程推荐 - 2 |
82. 课程章节信息展示 |
83. 如何控制一个view必须登录之后才能访问 |
84. 学过该课程的同学还学习过的课程 |
85. 课程评论页面开发 - 1 |
86. 课程评论页面开发 - 2 |
87. 视频播放 |
88. 如何在不修改现有 view 的代码基础上去自动更新字段 |
89. 讲师列表页开发 |
90. 讲师详情页面开发 |
91. 个人信息显示 |
92. 通过django的modelform处理头像修改 |
93. 修改个人信息 |
94. 修改密码 |
95. 修改手机号码 |
96. 多种方式实现我的课程页面 |
97. 我的收藏 - 课程机构 |
98. 我的收藏 - 授课讲师 |
99. 我的收藏 - 公开课程 |
100. 全局消息提示和个人消息中心 |
101. 首页 -1 |
102. 首页 - 2 |
103. 全局搜索功能 - 副本 |
104. 如何快速找到所有的连接并快速的配置 |
105. 课程详情页显示学习用户 |
106. 自定义用户验证模块 |
107. 自定义404、500页面 |
108. sql注入攻击 |
109. xss攻击原理及防范 |
110. csrf攻击与防范 |
111. 如何修改编辑页面的布局 |
112. django的组和权限管理配置 |
113. 如何定义编辑页面和新增页面的表单 |
114. 如何让讲师可以登录xadmin并过滤列表页数据 |
115. 重载save_models方法控制保存和修改数据的逻辑 |
116. 同一张表的不同数据使用不同的管理器进行管理 |
117. 通过在model中定义方法将图片显示在列表页 |
118. 配置只读字段、排除字段和默认的排序 |
119. 通过model_icon修改model的图标 |
120. 通过inline配置多张表的一次性编辑 |
121. 集成ueditor富文本编辑器到xadmin中 |
122. 数据的导入和导出配置 |
123. 为什么我们需要云服务器部署 |
124. 如何购买阿里云服务器和连接到阿里云服务器 |
125. uwsgi nginx组合介绍 以及python的安装和配置 |
126. mariadb和redis的安装与配置 |
127. nginx和virtualenvwrapper的安装和配置 |
128. 如何同步本地代码到阿里云服务器 |
129. uwsgi和nginx配置 |
130. uwsgi和nginx配置 |
131. 配置域名和服务器之间的映射 |
132. 部署后需要注意的事项以及如何排查日志错误 |
133. centos7 下通过uwsgi,nginx部署django应用 |
134. 是否可以在同一个操作系统上部署不同的客户系统? |
Java阶段三
课时:2天
技术点:50项
测验:1次
学习方式:线下面授
学习目标
1.掌握Java基本语法|
2.掌握面向对象编程|
3.使用Java实现与Kafka的交互
主讲内容
1. Java编程语法学习并掌握大数据开发所需的Java编程语法,包含的内容如下:
01_开发环境基本配置|
02_运算符/表达式/流程控制|
03_变量及方法|
04_Lambda表达式|
05_数组与集合|
06_面向对象及常用类|
07_JDBC|
08_多线程|
09_Maven
Flink阶段八
课时:6天
技术点:88项
测验:1次
学习方式:线下面授
学习目标
1.掌握基于Flink进行实时和离线数据处理、分析|
2.掌握基于Flink的多流并行处理技术|
3.掌握千万级高速实时采集技术
主讲内容
1. Flink Core新一代批流统一数据处理引擎,在计算效率和性能都有很大提升,包含了以下技术点:
2. Flink DataStream构成了Flink解决实时数据处理部分,是掌握实时数据处理必备技能,包含了以下技术点:
01_Flink DataStream的使用|
02_Kafka + Flink
3. Flink SQL解决Flink中的SQL化开发,Flink-SQL开发必备技能,包含了以下技术点:
01_Flink SQL开发|
02_Hive + Flink SQL
4. Flink Runtime是对Flink任务进行调优,必须掌握的内容,包含了以下技术点:
01_Watermark|
02_Checkpoint|
03_任务调度与负载均衡|
04_状态管理
5. Flink高级解决Flink性能监控等高阶知识,具备实时数据分析必备技能,包含以下技术点:
01_Flink性能监控|
02_Flink调优|
03_Flink SQL执行计划
6. Flink电商案例实战践行场景式教学,运用了Flink阶段知识点,解决实时数据分析的应用,包含了以下技术点:
01_Flume+Kafka+Flink+HBase+Sqoop+Canal+MySQL实战
大数据云计算-京东电商用户行为分析阶段四
阶段课时:4天
技术点:13项
发布会:3次
达成目标
仅掌握基础的数据分析技能,早已无法满足高薪岗位的需求,所以进阶成为中高级数据工程师势在必行。本课程通过一系列企业级数据分析项目实战,带你夯实数据分析必备技能、拓展数据分析思维、学习数据分析算法应用,让你快速掌握中级数据工程师必备的核心技能,叩开大厂之门!
选取了2020年11月25日至2022年12月3日之前,有行为的1000w用户的所有行为(包括点击、购买、加购、喜欢),
数据量约5w,分析了用户行为与商品规律
以京东app平台用户行为数据集,通过行业的指标对淘宝用户进行分析,探索淘宝用户的行为模式,具体指标包括:
日PV和UV分析,付费率分析,复购行为分析,漏斗流失分析和用户价值RFM分析。
通过对用户行为的解读分析,以此来洞察隐藏在用户各个行为背后的寓意,结合洞察的结论提出相关的优化建议给至平台和商家,
从而实现平台、商家和用户的共赢。
主讲解决方案
1.海量数据高效加载解决方案|
2.海量商品数据事实同步解决方案|
3.实时收集解决方案|
4.冷热数据隔离解决方案|
5.数据一致性解决方案|
6.多线程处理解决方案
主讲知识点
1. 数据分析课程导学 |
2. 数据分析工程师的进阶指南 |
3. 课程的核心目标 |
4. 数据分析报告的关键组成部分 |
5. 如何构建企业级数据分析报告? |
6. Python还可以这样用(中高级) |
7. 快速处理数据不二选择-NumPy |
8. 数据探索工具-Pandas |
9. 高效处理带有时间序列数据(一) |
10. 高效处理带有时间序列数据(二) |
11. 实战:杭州市地铁流量时间序列数据处理(一) |
12. 实战:杭州市地铁流量时间序列数据处理(二) |
13. 实战:kaggle数据分析可视化实战(一) |
14. 实战:kaggle数据分析可视化实战(二) |
15. 实战:kaggle数据分析可视化实战(三) |
16. 实战:kaggle数据分析可视化实战(四) |
17. 对比分析和分类分析思路与应用场景 |
18. 时间序列分析思路与应用场景 |
19. 实战:淘宝电商商品销量数据分析 |
20. 逻辑树分析思路与应用场景 |
21. 多维度拆解分析思路与应用场景 |
22. 假设检验分析思路与应用场景 |
23. 多个变量间的相关性分析与应用场景 |
24. 实战:互联网金融信贷数据分析 |
25. 如何使用AARRR模型对用户进行分层? |
26. RFM模型实现精细化用户运营 |
27. 用户画像:如何真正了解用户需求? |
28. 抖音、QQ浏览器、百度APP的用户画像差异 |
29. 推荐系统中的用户画像 |
30. 从决策树到GBDT的优化(一) |
31. 从决策树到GBDT的优化(二) |
实战:杭州市地铁流量阶段五
阶段课时:2天
技术点:13项
发布会:3次
达成目标
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
数据清洗(Data cleaning)– 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成
。
长三角都市区一体化,需要杭州具有更高效,快捷的组织区域交通,提升面向区域的交通辐射力与交通承载力,切实发挥区域引领作用.以杭州轨道交通的OD客流数据为研究对象,利用Python对客流数据进行处理,并利用集合论等知识构建地铁站间的OD矩阵,从时间和空间两个角度对客流数据进行可视化分析,发现杭州地铁现有线路的交通时段分布很不均衡.通过Echarts绘制部分地铁站点各时段的OD客流热力图,对杭州城市居民出行特征进行研究,为杭州市在建地铁线路规划及地铁站点选址等提供重要参考依据.
利用Pandas数据分析工具分析杭州地铁站乘客人流量数据,掌握数据分析知识,包括数据预处理【数据清洗,异常值的查找等】,
数据的合并和分组及聚合,还有数据可视化来直观的观察.
分析数据。
主讲解决方案
1.海量数据高效加载解决方案|
2.海量商品数据事实同步解决方案|
3.实时收集解决方案|
4.冷热数据隔离解决方案|
5.数据一致性解决方案|
6.多线程处理解决方案
主讲知识点
1. 数据分析课程导学 |
2. 数据分析工程师的进阶指南 |
3. 课程的核心目标 |
4. 数据分析报告的关键组成部分 |
5. 如何构建企业级数据分析报告? |
6. Python还可以这样用(中高级) |
7. 快速处理数据不二选择-NumPy |
8. 数据探索工具-Pandas |
9. 高效处理带有时间序列数据(一) |
10. 高效处理带有时间序列数据(二) |
11. 实战:杭州市地铁流量时间序列数据处理(一) |
12. 实战:杭州市地铁流量时间序列数据处理(二) |
13. 实战:kaggle数据分析可视化实战(一) |
14. 实战:kaggle数据分析可视化实战(二) |
15. 实战:kaggle数据分析可视化实战(三) |
16. 实战:kaggle数据分析可视化实战(四) |
17. 对比分析和分类分析思路与应用场景 |
18. 时间序列分析思路与应用场景 |
19. 实战:淘宝电商商品销量数据分析 |
20. 逻辑树分析思路与应用场景 |
21. 多维度拆解分析思路与应用场景 |
22. 假设检验分析思路与应用场景 |
23. 多个变量间的相关性分析与应用场景 |
24. 实战:互联网金融信贷数据分析 |
25. 如何使用AARRR模型对用户进行分层? |
26. RFM模型实现精细化用户运营 |
27. 用户画像:如何真正了解用户需求? |
28. 抖音、QQ浏览器、百度APP的用户画像差异 |
29. 推荐系统中的用户画像 |
30. 从决策树到GBDT的优化(一) |
31. 从决策树到GBDT的优化(二) |
32. 信用卡客户贷款违约预测实战--使用决策树(一) |
33. 信用卡客户贷款违约预测实战--使用决策树(二) |
34. kmeans无监督聚类的强大 |
35. 红楼梦文本聚类实战--使用kmeans |
36. 关联规则分析应用 |
37. 经典模型支持向量积 |
38. 超强拟合能力的神经网络 |
39. 预测服装厂员工生产效率--神经网络(一) |
40. 预测服装厂员工生产效率--神经网络(二) |
41. 如何提出分析问题? |
42. 数据获取和数据预处理 |
43. 掌握流量和转化指标 |
44. 用户行为路径分析应用 |
45. 使用AARRR漏斗模型拆解用户行为 |
46. 用户消费习惯分析及应对方式 |
47. 从商品相关性中挖掘可用信息 |
48. 使用RFM模型进行用户价值分析及应对方式(一) |
49. 使用RFM模型进行用户价值分析及应对方式(二) |
50. 问题理解与评估指标 |
51. 数据探索性分析(EDA) |
52. 特征工程的重要性 |
53. 如何选择合适的模型? |
54. 进行模型高阶实践 |
55. 实战案例准备工作 |
56. 数据获取和数据预处理.mp4 |
57. 用户行为数据分析和可视化 |
58. 滑窗法扩充训练集数据 |
59. 构建描述用户的特征 |
60. 构建描述拍客的特征 |
61. 选择有价值的特征 |
62. 使用树模型三剑客 |
63. 构建模型差异性进行融合 |
64. 整章课程回顾 |
65. 数据分析工程师面试问题方向讲解 |
66. 选择合适的意向领域及成长路线 |
67. 学习完这个课程以后怎样继续深入数据分析的学习? |
面试宝典阶段六
阶段课时:2天
技术点:43项
学习方式:线下
发布会:1次
简介
课程覆盖了90%面试高频考点 +10%课程中的面试技巧+简历指导 +面试经验分享,
硬核技术+面试软实力双重提升,优质offer纷至沓来!目前已经帮助很多pythoner拿到offer!
达成目标
1. Python服务端工程师面试指导-课程导学篇 |
2. Python 后端职位分析 |
3. 面试流程和环节 |
4. Python后端技术栈 |
5. Python初中级工程师技能要求和面试标准 |
6. 简历书写与自我介绍 |
7. 行为面试常见问题与回答技巧 |
8. 行为面试练习题:讲讲你的项目 |
9. Python语言基础常考题 |
10. python2和3差异常考题 |
11. Python函数常考题 |
12. Python异常机制常考题 |
13. Python性能剖析与优化,GIL常考题 |
14. Python生成器与协程 |
15. Python单元测试 |
16. Python基础练习题:深拷贝与浅拷贝 |
17. Python常用内置算法与数据结构常考题 |
18. Python面试常考算法 |
19. Python数据结构常考题 |
20. Python白板编程 |
21. Python数据结构常考题之链表 |
22. Python数据结构常考题之二叉树 |
23. Python数据结构常考题之栈与队列 |
24. Python数据结构常考题之堆 |
25. Python字符串常考算法题 |
26. 算法与数据结构练习题:反转链表 |
27. 面向对象基础及Python 类常考问题 |
28. 装饰器面试常考问题 |
29. 设计模式:创建型模式Python应用面试题 |
30. 设计模式:结构型模式Python应用面试题 |
31. 设计模式:行为型模式Python应用面试题 |
32. Python 函数式编程常考题 |
33. 编程范式练习题:编写一个单例模式 |
34. 面试常考 linux 命令 |
35. 操作系统线程和进程常考面试题 |
36. 操作系统内存管理机制与Python垃圾回收面试题 |
37. 线程练习题:多线程爬虫 |
38. 网络协议TCP和UDP面试常考题 |
39. HTTP 面试常考题 |
40. 网络编程常考题 |
41. 并发编程IO多路复用常见考题 |
42. Python并发网络库常考题 |
43. 异步框架练习题:异步爬虫 |
44. Mysql基础常考题 |
45. Mysql索引优化常考面试题 |
46. SQL语句编写常考题 |
47. 缓存机制及Redis常考面试题 |
48. 数据库练习题:Mysql索引与 Redis 应用 |
49. Python WSGI与web框架常考点 |
50. web安全常考点 |
51. 前后端分离与 RESTful 常见面试题 |
52. web安全思考题:什么是https |
53. 系统设计考点解析 |
54. 系统设计真题解析:短网址系统的设计与实现 |
55. 系统设计思考题:如何设计一个秒杀系统 |
56. 面试经验分享 |
57. 课程总结 |
算法基础阶段七
阶段课时:2天
技术点:23项
学习方式:线下
简介
1、研究电商搜索引擎的策略算法工作,包括用户意图分析、召回策略、相关性模型、排序模型等算法。
2、研发大规模机器学习平台,在Learning to Rank、CTR/CVR预估等领域不断进行算法创新,优化相关指标。
包括内容:
选择排序
冒泡排序
快速排序
归并排序
二叉树
红黑树
深度学习算法
卷积神经网络、循环神经网络、自编码器
线性搜索、二分搜索、深度优先搜索、广度优先搜索
线性回归、逻辑回归、决策树、支持向量机、神经网络
自然语言处理算法
词袋模型、TF-IDF模型、主题模型、情感分析
简历指导&模拟面试
阶段课时:3天
模拟面试:>2次
学习方式:线下讲解
达成目标
1.用科学方法循序渐进模块化简历书写|
2.简历互批模式 、优秀简历鉴赏和三方简历批改助力产出明星简历|
3.高质量行业标准简历库累积,让学员简历技术专业度、项目专业度、经验专业度提挡提质|
4.分阶段、分批次、分组开展面试实战演练,练讲解清晰度、练胆识与信心、练专业技术和项目架构表述的逻辑性|
5.一对一企业模拟面试,全方位指导、帮扶面试过程核心问题及解决措施|
6.提升项目表达与项目业务专业度
授课内容
1. 简历指导分批次简历指导、专业简历课、创新简历批改模式和行业级有竞争力简历评价标准:
1.分批次简历指导课,让简历书写循序渐进不再难|
2.整合HR、专业技能和项目经验,让简历符合行业标准|
3.顶级项目讲师进行技术层面全方面多频次专业简历指导与批改
2. 面试专题库面试高频问题总结,面试专题讲座,实战化专题演练,强化面试演练:
1.面试高频问题总结,形成面试专题及参考答案|2.开展真实面试问题讲座,让学生不仅仅会背更要明白背后逻辑,提升学生面试底气|3.开展专题实战化演练,发挥个人优势,提升成功率|4.学生问题提查,引导思维训练,提升技术表述与项目融合讲解
3. 项目专题训练专业指导完成项目表述,从原型与架构角度剖析项目结构,实现技术与项目业务融合促进项目逻辑链条更完整:
1.将项目专题抽取,更好的组装业务逻辑和技术架构|
2.以专题化驱动项目训练,让实际开发经验更易于呈现,极大丰富项目经验|
3.通过项目专题,将技术与项目业务逻辑更好的整合在一起,完善项目表述逻辑链条|
4.合理的项目选型与架构,搭配项目业务流程综合体现项目硬实力
4. 模拟面试企业级面试流程指导,老师与学生模拟面试训练,企业标准面试学生更好的面试流程和氛围:
1.多频次、企业级面试流程指导,助力真实面试体验|
2.老师与学生通过模拟真实场景下面试,提前感受面试氛围、克服面试紧张情绪|
3.提供模拟面试专业指导,帮助及时改正问题点|
4.以简历为基础、企业面试流程为标准,强化模拟面试标准推进
5. 面试指导分批次学习专项项目课程,更好发挥学生专长促进学习效果,面试跟踪与复盘:
1、通过分批次专项项目课程学习,更好的实现因材施教|
2、结合学生简历及面试情况,确保指导效果有的放矢|
3、从简历书写、投放、面试结果反馈进行全面跟踪,保证全流程实施效果|
4、面试问题及时跟踪复盘,无缝对接企业面试保障面试效果
接口自动化实战【指导】毕设项目一
阶段课时:3天
技术点:23项
学习方式:线下指导
开展流程
3.1、流程 |
A. 确定业务范围,哪些业务功能的接口可以做自动化——接口自动化的覆盖率可以达到 100% |
B. 时间进度安排,人员分配 |
C. 确定自动化测试框架 |
D. 准备数据——准备接口用例数据 |
E. 编写接口自动化脚本 |
3.2、搭建接口自动化测试环境 |
1、安装python3.x——配置python的环境变量 |
2、安装PyCharm——python开发工具 |
3、安装测试库:|
Requests库—— 提供了丰富的用来发请求,对请求进行处理的API函数 |
xlrd,xlwt库—— 提供了对Excel文件进行操作的API函数 |
Pymysql库—— 提供了对Mysql数据库进行操作的API函数 |
paramsunittest库—— 实现参数化的库 |
Json库—— 提供了对Json格式的数据进行操作的API函数 |
核心组件 :
1、测试固件 setUp() 每条用例执行之前,首先会执行这个setUp()方法,在setUp()方法中完成准备初始化工作
比如:连接数据库,后期在将Web
UI功能自动化的时候,可以在这里去打开浏览器,配置 tearDown() 每条用例执行完成之后,回收一些资源,比如:关闭数据库,关闭浏览器
2、测试用例 每一条用例需要实现一个用例方法,每个用例方法都必须要以test开头
3、测试套件 执行用例的时候,需要创建测试套件,把用例加入测试套件。
4、加载器 用来加载用例的,把测试用例加入测试套件中
5、执行器 用来执行测试套件中的用例的 如何使用unittest框架来编写用例
解决方案
与UI相比,接口一旦研发完成,通常变更或重构的频率和幅度相对较小。因此做接口自动化的性价比更高,通常运用于迭代版本上线前的回归测试中。
手工做接口测试,测试数据和参数都可以由测试人员手动填写和更新。
因此我们在考虑将接口用例实现自动化的时候,主要思路就是在单个接口请求的测试用例已经完成的前提下,我们如何解决以下问题:
1.业务测试场景会调用不止一个接口,下一个接口的请求依赖于上一个接口的数据,需要解决接口依赖问题
2.token等鉴权数据有过期时间,多个接口用到该参数,需要解决一次修改,多处生效的问题
3.一个接口要用到多个测试数据做覆盖
4.批量测试下,需要知道某个接口返回的参数/数据是否符合预期
关联内容
01. 为什么要使用接口自动化测试 |
02. 编写项目登录接口 |
03. 登录加密函数封装 |
04. 剖析Python操作excel思路 |
05. Python操作excel测试用例 |
06. Pytest执行自动化测试 |
07. 轻松入门接口自动化 |
08. 接口自动化代码实战技巧 |
09. 接口自动化执行Yamll测试用例一 |
10. 接口自动化执行Yamll测试用例二 |
11. Pytest框架实现接口自动化测试 |
12. 结合allre实战接口自动化报告 |
13. 接口测试如何处理token |
14. cookies的工作原理 |
15. Pyhon处理cookies技巧 |
16. Jenkins+GitLab实现自动化测试 |
17. 项目常用的接口加密方式 |
A. 确定业务范围,哪些业务功能的接口可以做自动化——接口自动化的覆盖率可以达到 100% |
B. 时间进度安排,人员分配 |
C. 确定自动化测试框架 |
D. 准备数据——准备接口用例数据 |
E. 编写接口自动化脚本 |
3.2、搭建接口自动化测试环境 |
1、安装python3.x——配置python的环境变量 |
2、安装PyCharm——python开发工具 |
3、安装测试库:|
Requests库—— 提供了丰富的用来发请求,对请求进行处理的API函数 |
xlrd,xlwt库—— 提供了对Excel文件进行操作的API函数 |
Pymysql库—— 提供了对Mysql数据库进行操作的API函数 |
paramsunittest库—— 实现参数化的库 |
Json库—— 提供了对Json格式的数据进行操作的API函数 |
金融风控项目实战【指导】毕设项目二
阶段课时:3天
技术点:19项
学习方式:线下指导
开展流程:
python金融风控评分卡模型和数据分析概述 |
python信用评分卡建模(用户评级+企业评级 |
企业信用风险评级-python信用评分卡应用 |
python风控建模实战lendingClub |
移动杯-消费者人群画像-信用智能评分 |
金融现金贷用户数据分析和用户画像 |
Anaconda下载安装(python环境搭建) |
2008年华尔街黑天鹅?PSI揭秘 |
黑产诈骗中介独家揭秘 |
GermanCredit数据集变量中文释义和业务逻辑 |
xlrd,xlwt库—— 提供了对Excel文件进行操作的API函数 |
手把手用excel推导WOE公式 |
论文毕业设计复现机器学习模型案例大本营 |
玩转python风控模型 |
python金融风控评分卡模型和数据分析概述 |
python信用评分卡建模(用户评级+企业评级 |
玩转python风控模型 |
python风控建模实战-风控的阿克琉斯之踵 |
核心组件 :
金融风控建模
逻辑回归评分卡,集成树,神经网络模型介绍
金融风控模型论文复现
python风控模型
历史背景
自国内金融P2P暴雷,国内很多小贷机构便涌入了东南亚、非洲等未开拓的市场,像印尼、印度、菲律宾、泰国、越南、尼日利亚等国家。
分析这些东南亚/非洲国家的市场特点,有低金融包容性(2017年越南有30.8%的人拥有银行账户),对金融的高需求(2017年借贷的人口比例49.0%)和互联网普及率(2018年为66%)和移动连通性,为东南亚金融科技贷款的发展提供了最有利的条件,开启了野蛮生长的模式。
结合这些地域的贷款市场情况,通常征信体系建设及经济情况都比较差,且大部分的用户资质比较差(也并不满足银行的贷款资格)。种种因素下,机构对于放贷用户的信用/欺诈风险的掌握是比较差的,小贷机构坏账率普遍地高(如一些机构的新借贷用户坏账率可达
20~30%,而银行坏账通常在10%左右)。
在东南亚开展的小额贷款产品,普遍是714高炮(贷款周期7-14天,收取高额逾期费用或放贷时提前从本金中扣除利息-砍头息,有的实际年化利率竟达到300%)。
高利率必然带着高风险,这种业务也很容易受到金融监管政策的封杀。
关联内容
xlrd,xlwt库—— 提供了对Excel文件进行操作的API函数 | 手把手用excel推导WOE公式 | 论文毕业设计复现机器学习模型案例大本营
| 玩转python风控模型 | python金融风控评分卡模型和数据分析概述 | python信用评分卡建模(用户评级+企业评级 |
玩转python风控模型 | python风控建模实战-风控的阿克琉斯之踵
风控好坏关键在于数据获取及积累。一个明显差异体现在于,机构新借贷的用户坏账率是20~30%(里面骗贷欺诈的比重应该挺高),而对于在机构内复贷的老用户(之前有借贷的再重复贷款的用户)坏账率仅有4%。
也就是,对于机构有掌握借贷历史的用户,其坏账率是显著较低的!信贷风控能力的差异其实也就是数据垄断优势的体现!
对于小贷机构,营销扩展新用户后,如何应用风控模型尽量准确地评估新用户,并给予较低的额度,当其有较好的信贷历史后再提高额度,好好维持及扩充这部分复贷用户就是业务盈利的关键。
海外的小贷机构申请评分模型的数据主要来源有:
机构历史借贷记录:如使用同一手机号申请贷款次数、逾期次数。在征信体系建设覆盖不完全的情况下,在机构内(或联合机构)的借贷历史往往也是最有说服力及有效的。
客户基本资料:如身份信息、联系方式、职业、收入、借款用途等信息。由于线上申请这些数据往往没有人工审核,信息的可靠性是存疑的,通常可以借助多方数据来核验这些是不是一致及可靠的。
征信机构的征信报告:全球三大商业个人征信巨头分别为益百利(Experian)、艾克发(Equifax)和环联(Trans
union),可以提供贷款申请次数、贷款额度、信用账户数等信息。但不足的地方在于,对于征信体系建设不完善的地区,覆盖度、信息记录会比较差(本项目验证的Experian实际覆盖度80%左右)。
手机短信:短信可以提供很多有价值的信息,如话费欠费、银行卡收入支出、联系人数量、日常闲聊短信、机构催收短信、信贷广告数量。可以通过简单关键字匹配、词袋模型等方法抽取关键特征,进一步还可以通过短信分类、信息抽取(实体抽取)等方法统计催收短信数量、欠款金额、收入支出金额等数据(注:获取短信数据肯定是不合规的,对于机构只想要更多的数据保证,而对于用户急着用钱哪还管什么隐私数据。当前,有些APP已被禁止获取短信、通话记录,这也是要随着监管不断完善。)
手机通讯录:可用于统计关联的联系人的逾期次数等特征,以及其他的一些社交信息;
APP数据:可统计安装信贷类APP、社交类APP的数量,以及app使用率;
登录IP、GPS、设备号信息:可以用于关联特征,如同一IP下逾期次数,以及建立IP、设备黑名单;
银行对账单数据:如工资流水等信息,可以比较有效体现用户还款能力。
本项目基于东南亚某国近期的500笔的小额贷款交易(数据源于网络,侵删),获取相应Experian征信报告数据,并用Python加工出滑动窗口的征信特征:
如近30天的贷款次数,贷款平均额度、最近贷款日期间隔、历史逾期次数等特征,通过LightGBM构建申请评分模型。
Experian征信报告原始报文包含了个人基本信息、近期贷款信息、信用卡、贷款等历史表现等信息。
考虑征信报告的隐私性,本项目仅提供一份报告示例做特征加工。特征加工后特征选择,关联逾期标签,形成最终数据特征宽表。
python信用评分卡建模(用户评级+企业评级 | 企业信用风险评级-python信用评分卡应用 | python风控建模实战lendingClub |
移动杯-消费者人群画像-信用智能评分 | 金融现金贷用户数据分析和用户画像 | Anaconda下载安装(python环境搭建)
千万级电商用户画像实战【指导】毕设项目三
阶段课时:3天
技术点:25项
学习方式:线下指导
画像意义 :
用户画像可以帮助电商运营者了解产品的消费者是谁,他们有怎样的购物习惯和特征,他们的地域分布、价格偏好等信息。运营者通过构建用户画像体系,可以全方位地了解自身的市场定位和目标用户,从而通过数据化运营方式提升运营效率。
通过分析用户的基本属性数据(年龄、性别、教育水平、收入等),可以对用户进行更加合理的分类,通过更精准的广告营销获取客户;通过分析用户行为数据(搜索、浏览、加购、下单、评论等),可以获得用户的商品偏好、价格偏好等信息,从而帮助入驻商更好地选品,帮助平台更好地进行个性化推荐、搜索排序等;通过分析用户偏好数据(促销敏感度、价格敏感度、平台推荐等)对商品关联内容进行优化,提升个性化推荐的准确率,从而提升转化率、客单价等。
核心组件 :
用户画像作为一种定义用户群体、勾画目标用户的有效工具,已经被普遍应用到电商运营工作中。
本项目通过“亚马逊入驻商用户画像构建”案例来带入电商用户画像的构建思路。
体系搭建
用户地区分布分析
用户价格分布分析
用户购物习惯分析
用户画像对于多品牌矩阵运营的帮助
拓展内容
一、 用户画像有什么用?
用户画像可以帮助电商运营者了解产品的消费者是谁,他们有怎样的购物习惯和特征,他们的地域分布、价格偏好等信息。运营者通过构建用户画像体系,可以全方位地了解自身的市场定位和目标用户,从而通过数据化运营方式提升运营效率。
通过分析用户的基本属性数据(年龄、性别、教育水平、收入等),可以对用户进行更加合理的分类,通过更精准的广告营销获取客户;通过分析用户行为数据(搜索、浏览、加购、下单、评论等),可以获得用户的商品偏好、价格偏好等信息,从而帮助入驻商更好地选品,帮助平台更好地进行个性化推荐、搜索排序等;通过分析用户偏好数据(促销敏感度、价格敏感度、平台推荐等)对商品关联内容进行优化,提升个性化推荐的准确率,从而提升转化率、客单价等。
二、【案例】亚马逊美国市场用户画像体系搭建
用户画像搭建思路分三部分展开:
用户地区分布分析
用户价格分布分析
用户购物习惯分析
用户画像对于多品牌矩阵运营的帮助
2.1 用户地区分布分析
用户地区分布分析是建立店铺用户画像的基础性分析。拿到订单报表数据后,对各州的数据进行汇总统计,统计不同地区累计订单量、占比情况,绘制帕累托图。
对各个地区的市场占有情况有了了解之后,可以进一步划分店铺的各类市场:
头部市场:市场份额大于1%的地区;
长尾市场:市场份额大于0.1%小于1%的地区;
低单市场:市场份额小于等于0.1%的地区。
划分完成之后,需要进一步调整,以使市场划分更加合理。通用的划分原则是:“长尾市场”的市场总额必须大于第一“头部市场”的份额;“低单市场”的市场总额必须小于最后一个“头部市场”的份额。
运营者可以结合自身产品的特点分析产品的核心竞争力究竟是什么,对于不同的市场进行针对化选品,实现头部市场、长尾市场、低单市场的差异化运营,以免造成运营资源的浪费。
2.2 用户价格分布分析
对价格进行时间分布分析,观察单日24小时平均客单价变化情况。
将客单价波动划分为三个区间:低价格敏感区间、中价格敏感区间、高价格敏感区间。
观察发现,MS、TN客单价偏高,这些地区有更多的用户会购买客单价较高的商品;WA~MO这些地区的平均客单价中等,这些地区有更多用户会选择购买客单价适中的商品;NJ~OR地区有更多用户会选择购买客单价较低的商品。
2.3 用户购物习惯分析
首先,绘制单日24小时订单量和平均客单价变化图表,观察24小时总订单量变化规律。
观察发现,7:00~20:00属于购物高峰期,电商平台可以在这个时间段期间提升广告曝光率,优化广告单击点击竞价等。
2.4 用户画像对于多品牌矩阵运营的帮助
绘制不同店铺的利润 -
单个订单成本气泡图,将图表划分为四象限,I象限为高成本高利润店铺,二象限为高成本低利润店铺,三象限为低成本低利润店铺,四象限为低成本高利润店铺。
针对多店铺的长期运营策略,是让尽量多的店铺向四象限转化,可以通过提高利润率的方式,让II象限店铺转化为I象限店铺再转化为IV象限店铺;也可以通过降低成本的方式,让II象限店铺转化为III象限店铺再转化为IV象限店铺。
而短期运营策略则是,进行更加合理的资源配置,例如,马上要到“双11大促”了,就需要尽快把二象限店铺资源转移至四象限,避免运营资源浪费。
为气泡图增加颜色维度,代表不同的产品类目,以进行针对化选品。
红色产品,属于成本投入越高,则利润率越大,高风险高收益,属于正常产品;绿色产品的成本都很低,利润率却有高有低,这类产品(比如手机壳)更加考验选品能力和运营能力;蓝色产品成本高,利润率却很低,需要尽快放弃。
智慧交通【指导】毕设项目四
阶段课时:3天
技术点:28项
学习方式:线下指导
项目立意
智能交通技术已成为推动现代技术交通技术发展的重要力量,智能交通不仅能够提供实时的交通路况信息,
帮助交通管理者规划管理策略,而且还能优化出行者的出行策略。还可以减轻交通道路的堵塞情况, 降低交通事故的发生概率,提高道路运行的安全系数。
核心组件 :
基于视频的车辆跟踪及流量统计/可跟踪路面实时车辆通行状况,并逐帧记录不同行车道车流量数目的深度学习/车道线检测项目
关联拓展:
智慧系统的关键功能:
数据的自主分析、信息发布、自主采集,治愈性、预测性、可预防性等高阶能力的实现是基于智慧系统的数据自主分析功能的基础上。智慧交通系统是智慧系统在交通领域的应用,那么它关键功能必须具备大数据自主挖掘与分析、交通数据全方位监测、便利通达的信息发布。除此以外,针对政府,指挥调度和交通调控是城市交通管理的关键方法,它也成为影响居民出行效率的重要因素,那么高效互动的指挥调度、科学主动的交通调控也成为智慧交通系统的重要功总结一下,为实现智慧交通系统的设计目的。智慧交通系统的关键功能:
大数据自主挖掘与分析、交通数据全方位监测、便利通达的信息发布、科学主动的交通调控、高效互动的指挥调度。