python统计并绘制频率分布直方图

为了统计xx数据分布情况, 需要从csv文件中读出数据, 转换成int后绘制出频率直方图

代码如下

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import matplotlib.mlab as mlab
import matplotlib.pyplot as plt
import numpy as np

lst = []
with open("123.csv", 'r', encoding='utf8') as fh:
    while 1:
        line = fh.readline()
        if not line: break
        try:
            lst.append(int(line.strip()))
        except:
            pass

mu = np.mean(lst)  # 样本均值
sigma = np.std(lst)  # 样本标准差
num_bins = 50  # 区间数量(实际样本值是从100到150, 所以分成50份)
n, bins, patches = plt.hist(lst, num_bins, normed=1, facecolor='blue', alpha=0.5)
# 添加一个理想的正态分布拟合曲线
y = mlab.normpdf(bins, mu, sigma)
plt.plot(bins, y, 'r--')
plt.xlabel('Values')
plt.ylabel('Probability')
plt.title(r'$\mu={}$, $\sigma={}$'.format(round(mu, 2), round(sigma, 2)))
plt.subplots_adjust(left=0.15)
plt.show()

实际在jupyter-notebook中, 上述代码输出并未内嵌, 而是新弹出了一个窗口绘图

我们希望能够将图标内嵌到notebook的网页当中, 所以需要额外的操作

1
2
%matplotlib inline
from IPython.display import HTML

这样就可以了

参考

  1. hist的使用
  2. python统计并绘制频率分布直方图