数据规约之分层抽样
分层抽样其实也是随机抽取,但是分层抽样会根据一些特征进行分组,然后从这些分组中单独再随机抽样。在很多场景下,随机抽样是有问题的。比如说身高和体重在性别上的差异,在对它们进行抽样时必须考虑性别因素。我们可以粗略地说:女性的身高符合165为中心的正态分布,体重符合50公斤为中心的正态分布,而男性身高则可能是175为中心的正态分布,体重是60公斤中心的正态分布。我们考虑到性别这个特征对数据分布有显著影响,所以对数据抽样就需要考虑将性别特征纳入到分层抽样的范围中了。
知识点:
(资料图片仅供参考)
在Pandas的DataFrame中,有一个方法
cut
:https://pandas.pydata.org/docs/reference/api/pandas.cut.html#pandas.cut 就是专门负责这种处理的。Pandas cut()函数用于将数组中的元素分离成不同的bins。cut函数主要用于对标量数据进行统计分析。
语法:
cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=”raise”,)
参数:
x:要分选的输入数组。必须是一维的。
bins:定义了用于分割的bin边缘。
right :(bool, default True ) 指示bins是否包括最右边的边。如果right == True(默认),那么bins [1, 2, 3, 4] 表示(1,2], (2,3], (3,4)。
labels :(array or bool, optional) 为返回的bin指定标签。必须与返回的分选区长度相同。如果是假的,只返回分选区的整数指标。
retbins :(bool, default False) 是否返回bins。当bins是以标量形式提供时很有用。
用pandas的cut方法,实例如下:
bins给出连续的数组区间,落在区间内的值被归为一类,例如:bins=[1, 50, 100]
意味:1-50是一个区间,50-100是一个区间,79会落在(50, 100]的区间上,9会落到(1, 50]的区间上。labels会针对每一个区间起一个别名,例如:labels=['Lows', 'Highs']
意味:(1, 50]的区间将被称为Lows,(50, 100]的区间将被称为Highs。
运行结果:
- 数据规约之分层抽样
- 空间之最强炼丹师-带着空间炼丹修仙 世界今日报
- 深谷尸变豆瓣_深谷尸变
- 官屿_关于官屿介绍
- 番茄土豆牛腩煲英语(番茄牛腩煲的做法)|当前焦点
- 【世界播资讯】蘑菇云刷机软件_蘑菇云刷机大师使用教程
- 天天百事通!最新款a4l胎压灯复位_a4胎压灯怎么消除
- 全球最新:内娱女星都在吐槽,这种新型 PUA 实在忍不了
- 这类基金 业绩全面“回血”! 天天快讯
- 为什么白酒没有保质期,看完你就明白了!
- 环球讯息:南京皮肤研究所激光祛斑_南京光尔美祛斑中心
- 天天消息!防晒美肤:丝袜。
- 湖南岳阳:3A级以上等级旅游景区及文化场馆将全面安装“智慧眼”
- Redmi推出具有革命性200MP相机的Note12系列
- 每日讯息!苏州姑苏区
- 日本一JRPG新作《伤痕》游戏机制介绍预告公开! 全球热文
- 济南天伦医院广告_济南天伦医院 当前速看
- 观察:硅钙板和矿棉板价格(硅钙板价格多少一平米)
- 考研英语作文范文难不难 考研英语作文范文 最新快讯
- 每日短讯:6月2日基金净值:交银启明混合A最新净值1.2888,涨1.39%
- 【通信设备】光模块行业研究报告:人工智能提振增长空间,光模块开启新周期 焦点快看
- 黔西市绿化乡:又到土豆丰收时 田间一派好“丰景”_全球通讯
- 长沙今年夏天会更热吗?快来看最新夏季气候预测
- 全球速讯:mlvss检测方法(mlvss)
- 世界通讯!MBA考研准考证在哪里打印?有这几个方式
- 交通运输部质监局领导班子_交通运输部质监局
- 江西生态环境质量实现从市域达标向省域优良转变-天天通讯
- 动态焦点:眉山绘出“天府粮仓”“三苏文化”“乡村医疗卫生”路线图
- 女子航站楼前取行李被撞身亡,监控拍下全过程,肇事司机疑未踩刹车
- 环球热推荐:科目一三短一长选最长 两短一长选最长