Python整理QQ聊天记录进行数据挖掘绘图

发布时间:2017-12-22   浏览次数:5,589  

接触python有段时间了,文本处理、数据分析、绘图都是难啃的骨头,一直望而却步。matplotlib、pandas、正则对我来说难度都比较大,准备爬一波淘宝评论做分析学习,还是没有跳出爬虫的范畴,最终对仰望已久的整理QQ聊天记录下手。高筒同学总是聚少离多,电脑上保存有最近三年的班级群聊天记录,回忆一下过去也是很有必要的。

qq可以导出聊天记录的,但是原始数据是不适合拿来直接做分析的,如下。

 

qqjilu

 

首先就要利用python对原始的数据进行整理,结果如下:

20171222165419

一、python整理qq聊天记录

1、利用正则匹配包含时间、备注、qq号码的这一行,进一步提取出时间、备注、qq等信息,需要注意的是qq分号码和邮箱、备注的修改也需要处理。

2、利用第一步的匹配,对文件做分割,将每一次聊天放入list,对换行特殊符号做处理。

3、判断以上步骤是否有误,第一步的list与第二步的长度相对则问题不大。(参考:http://blog.csdn.net/watfe/article/details/53420789)

4、将整理完成的数据保存excel,并且导入pandas分析。

 

二、python分析qq聊天记录

分析想要的数据,例如找出聊天最多的10天。

结果

20171222170604

还可以画出聊天的人,聊天的时间段等等。

三、分析qq聊天内容

利用jieba/wordcloud分析初步聊天内容并绘图,斗图已经是大家不可或缺的话题了(导出的聊天记录中图片将以[图片]、[表情]保存)。

20171222171013

代码如下:

通过pandas与wordcloud结合,画出每个群成员自己的聊天词云。

20171222171436

“没有”“工资”可以说相当精确了!

20171222171627

还有这样相当魔性的、、、

转载注明:http://www.hekaiyu.cn/record/3956.html

Carpe Diem and Do what I like