csdn泄漏密码分析

csdn密码泄漏,640万用户数据泄漏,对于在小公司的我,从没见过这么大数据量,于是非
常兴奋,迫不及待的想去操作一下如此大的表。

使用mysql,首先建表。

create database csdn;

create table csdn(
id int not null auto_increment,
username varchar(100),
passwd varchar(100),
email varchar(100),
primary key (id)
)


接着导入表,由于泄漏的文件不是标准sql,只有三列,使用#隔开,因此使用load data infile方式。

load data local infile '/home/kaka/csdn.sql' into table csdn fields terminated by '#' (username,passwd,email);

导入成功,共有6428632条记录。

这么多条记录,访问起来十分慢,首先建几条索引(index)

create index passwd_index on csdn(passwd) using btree;

时间是
[quote]
Query OK, 6428632 rows affected (3 min 46.82 sec)
[/quote]
再对邮箱建一个索引:

create index email_index on csdn(email) using btree;

用的时间更长,
[quote]
Query OK, 6428632 rows affected (6 min 51.11 sec)
Records: 6428632 Duplicates: 0 Warnings: 0
[/quote]
不过和后面的查询减少的时间比起来,这个6分钟也是很值得了。

下面来进行一些有趣的分析:

1、常用密码排名(前20名)
[quote]
| passwd | count(passwd) |
+--------------+---------------+
| 123456789 | 235029 |
| 12345678 | 212766 |
| 11111111 | 76348 |
| dearbook | 46052 |
| 00000000 | 34953 |
| 123123123 | 20010 |
| 1234567890 | 17794 |
| 88888888 | 15033 |
| 111111111 | 6995 |
| 147258369 | 5966 |
| aaaaaaaa | 5890 |
| 987654321 | 5555 |
| 1111111111 | 5145 |
| 66666666 | 5026 |
| a123456789 | 4686 |
| 11223344 | 4096 |
| 1qaz2wsx | 3969 |
| password | 3654 |
| xiazhili | 3649 |
| 789456123 | 3611 |

[/quote]
12345678和12345678分别突破20万,整天叫嚷这数据安全的程序员们,轮到自己的时候,密码就这么简单啊~ :lol:
排名第四的是dearbook,有4.6万人,我不清楚dearbook有何含义,知道的解释下吧。

以ilove**作为密码的共有12031个人。

2、没有重复的密码:
[quote]
!(*!!
!(()!!!^
!((%)*)(QWtxd
!((%!((%
!(($)
!((!)*)
!((!)()%
!((
!(&^)^!(
!(&^!!@&
!(()!!@
!(()!@)(cloud
!(()!@)6125dou
!()jian20
!((^)^@@123123
!((@0709yxw
!((*03230225tian
!(()HB1990128
!(()0803
!(())@)@@

[/quote]

要想密码没有重复,!,(,)不可少啊~不过这也太难记了吧。。

3、80后统计
把密码设为日期的应该就是自己的出生日期了吧
来统计一下80后

[quote]
birth count
----- ------
1980 15374
1981 21923
1982 34535
1983 35144
1984 39849
1985 41709
1986 50940
1987 59569
1988 53519
1989 45269
----- ------
397831
[/quote]
将近40万的80后哦~

4、注册邮箱排名(前20)
[quote]
qq.com 1972584
163.com 1763310
126.com 806199
sina.com 350870
yahoo.com.cn 205110
hotmail.com 202361
gmail.com 186086
sohu.com 104554
yahoo.cn 86797
tom.com 72231
yeah.net 53114
21cn.com 50597
vip.qq.com 35055
139.com 29105
263.net 24756
sina.com.cn 19103
live.cn 18860
sina.cn 18574
yahoo.com 18338
foxmail.com 16382

[/quote]

从这张表里,大概能反映目前国内各邮箱厂商的市场占有率:网易和qq领先竞争对手非常多,网易256万多,腾讯200万左右,排名第三的新浪只有35万左右。后面依次是雅虎,hotmail,gmail,sohu。。

5、大学统计
根据邮箱后缀来统计各大学注册人数
[quote]
mail.ustc.edu.cn 2035 中科大
sjtu.edu.cn 1876 上海交大
bjtu.edu.cn 1341 北京交大
fudan.edu.cn 981 复旦
stu.xjtu.edu.cn 930 西安交大
zju.edu.cn 876 浙大
mails.tsinghua.edu.cn 716 清华
bit.edu.cn 691 北京理工
mail.nankai.edu.cn 640 南开
stu.edu.cn 559 汕头大学
emails.bjut.edu.cn 487 北京工大
swu.edu.cn 450 西南大学
nenu.edu.cn 413 东北师范
ustc.edu 345 中科大
mail.dhu.edu.cn 327 东华大学
cqu.edu.cn 311 重庆大学
pku.edu.cn 309 北大
mail.sdu.edu.cn 309 山东大学
stu.snnu.edu.cn 299 陕西师范大学
cqut.edu.cn 260 重庆理工
[/quote]

中科大,上海交大,北京交大占据了前三甲啊。。

6、两个段子
[quote]
RT @hecaitou: 转:CSDN 杯我最喜欢的密码大决选总冠军:ppnn13%dkstFeb.1st。看不懂?中文解析:娉娉袅袅十三余,豆蔻梢头二月初。
[/quote]
经查,没有这个密码。。
[quote]
转:CSDN杯我最喜欢的密码大决选季军: FLZX3000cY4yhx9day (飞流直下三千尺,疑似银河下九天) hanshansi.location()!∈[gusucity](姑苏城外寒山寺) hold?fish:palm(鱼和熊掌不可兼得)
[/quote]
经查,只有 FLZX3000C 这个存在,其它的都不存在。
这帮文人啊,造些无聊的段子有神马意义~


csdn的分析就到这里吧,下一篇将是对4000万天涯数据的分析,敬请期待啊~

ps:
1、建库,导入数据,建索引时间都是基于我的笔记本上虚拟机统计出来的。P8500双核,1G内存.
2、处理大数据,linux系列比windows强太多了。在win7上查询不下去了,我才转移到ubuntu上的。
3、本人只是对处理大规模数据感兴趣,所以才下载了这些数据,仅用来学习,不害人不传播,请勿跨省,请勿向我索取。
  • 10
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
CSDN淘宝数据分析是指通过对CSDN和淘宝的数据进行收集、整理和分析,从中挖掘出有价值的信息和洞察力以支持决策制定和商业发展。在这个过程中,通过运用各种数据分析方法和技术,可以深入了解CSDN和淘宝用户的行为、偏好和需求,并从中找出潜在的商机和市场趋势。 首先,CSDN淘宝数据分析可以通过分析CSDN的用户行为数据,了解用户对于技术和开发的关注点和需求。可以通过统计数据分析,例如浏览量、收藏量和评论数等,来判断哪些技术和主题最受用户欢迎,以便CSDN发布相关的推文、教程和活动。 其次,CSDN淘宝数据分析可以通过分析淘宝的销售数据,洞察消费者的购物偏好和趋势。可以通过对销售额、购买频率和购买意向等指标的分析,找出热产品和潜在的消费增长点,以便淘宝商家进行采购和推广的决策。 此外,CSDN淘宝数据分析还可以通过结合CSDN和淘宝的数据,提供给广告商和营销人员更准确的用户画像和目标受众。可以通过对用户兴趣、购买历史和行为路径的分析,精确定位潜在的消费者,并优化广告投放和营销策略,提高广告的点击率和转化率。 总之,CSDN淘宝数据分析是一项利用数据工具和技术来理解和利用CSDN和淘宝用户的行为和需求的过程。通过这种分析,可以为CSDN、淘宝以及广告商和营销人员提供更准确的数据支持,支持决策制定、商业发展和市场推广。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值