python从本地读取mnist数据集的方法是什么?
Admin 2021-10-14 群英技术资讯 1682 次浏览
这篇文章主要给大家分享python从本地读取mnist数据集的方法,mnist手写数字数据集在机器学习中很常见的,因此本文给大家分享读取mnist数据集的方法做个参考,需要的朋友可以了解看看。
这部分内容网络上很常见,这里还是简明介绍一下。网络上下载的mnist数据集包含4个文件:

前两个分别是测试集的image和label,包含10000个样本。后两个是训练集的,包含60000个样本。.gz表示这个一个压缩包,如果进行解压的话,会得到.ubyte格式的二进制文件。

上图是训练集的label和image数据的存储格式。两个文件最开始都有magic number和number of images/items两个数据,有用的是第二个,表示文件中存储的样本个数。另外要注意的是数据的位数,有32位整型和8位整型两种。
需要import gzip
读取训练集的代码如下:
def load_mnist_train(path, kind='train'):
'‘'
path:数据集的路径
kind:值为train,代表读取训练集
‘'‘
labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz'% kind)
images_path = os.path.join(path,'%s-images-idx3-ubyte.gz'% kind)
#使用gzip打开文件
with gzip.open(labels_path, 'rb') as lbpath:
#使用struct.unpack方法读取前两个数据,>代表高位在前,I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节
#这样读到的前两个数据分别是magic number和样本个数
magic, n = struct.unpack('>II',lbpath.read(8))
#使用np.fromstring读取剩下的数据,lbpath.read()表示读取所有的数据
labels = np.fromstring(lbpath.read(),dtype=np.uint8)
with gzip.open(images_path, 'rb') as imgpath:
magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
images = np.fromstring(imgpath.read(),dtype=np.uint8).reshape(len(labels), 784)
return images, labels
读取测试集的代码类似。
如果在本地对四个文件解压缩之后,得到的就是.ubyte格式的文件,这时读取的代码有所变化。
def load_mnist_train(path, kind='train'):
'‘'
path:数据集的路径
kind:值为train,代表读取训练集
‘'‘
labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind)
images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind)
#不再用gzip打开文件
with open(labels_path, 'rb') as lbpath:
#使用struct.unpack方法读取前两个数据,>代表高位在前,I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节
#这样读到的前两个数据分别是magic number和样本个数
magic, n = struct.unpack('>II',lbpath.read(8))
#使用np.fromfile读取剩下的数据
labels = np.fromfile(lbpath,dtype=np.uint8)
with gzip.open(images_path, 'rb') as imgpath:
magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 784)
return images, labels
读取之后可以查看images和labels的长度,确认读取是否正确。
以上就是关于python读取mnist数据集的方法介绍了,本文代码具有一定的借鉴价值,有需要的朋友可以参考学习,希望对大家有帮助,想要了解更多可以继续浏览群英网络其他相关的文章。
文本转载自脚本之家
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
我们都知道,在Python3中子类在继承父类的时候,当子类中的方法与父类中的方法重名时,子类中的方法会覆盖父类中的方法,那么,如果我们想实现同时调用父类和子类中的同名方法,就需要使用到super()这个函数,用法为super().函数名()下面是一个例子:classA1():defgo(self):print("goA1go")classA2():
MongoDB是由C++语言编写的非关系型数据库,是一个基于分布式文件存储的开源数据库系统,其内容存储形式类似JSON对象,下面这篇文章主要给大家介绍了关于利用Python操作MongoDB数据库的相关资料,需要的朋友可以参考下
这篇文章主要介绍了python数字图像处理之边缘轮廓检测示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
本文详细讲解了Pytest框架之fixture,文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
pygame是Python的第三方库,里面提供了使用Python开发游戏的基础包。本文将介绍如何通过Pygame实现鼠标进行图片的移动与缩放,感兴趣的可以关注一下
成为群英会员,开启智能安全云计算之旅
立即注册关注或联系群英网络
7x24小时售前:400-678-4567
7x24小时售后:0668-2555666
24小时QQ客服
群英微信公众号
CNNIC域名投诉举报处理平台
服务电话:010-58813000
服务邮箱:service@cnnic.cn
投诉与建议:0668-2555555
Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 ICP核准(ICP备案)粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008