首页 > 分享 > 狗猫分类数据集划分详解

狗猫分类数据集划分详解

萌宠菠菠乐园
2024-11-24 06:08

数据集介绍

首先是要下载数据集，下载地址：https://www.kaggle.com/c/dogs-vs-cats-redux-kernels-edition

数据解压之后会有两个文件夹，一个是“train”，一个是“test”，顾名思义一个是用来训练的，另一个是作为检验正确性的数据，也是网站要求提交标签的。

在train文件夹里边是一些已经命名好的图像，有猫也有狗

而在test文件夹中是只有编号名的图像

大致了解了数据集后，下边就开始划分数据集

代码

先放一段代码，这是从书中截取出来的：

import os

from PIL import Image

from torch.utils import data

import numpy as np

from torchvision import transforms as T

class DogCat(data.Dataset):

def __init__(self, root, transforms=None, train=True, test=False):

"""

主要目标：获取所有图片的地址，并根据训练，验证，测试划分数据

"""

self.test = test

imgs = [os.path.join(root, img) for img in os.listdir(root)]

if self.test:

imgs = sorted(imgs, key=lambda x: int(x.split('.')[-2].split('/')[-1]))

else:

imgs = sorted(imgs, key=lambda x: int(x.split('.')[-2]))

imgs_num = len(imgs)

if self.test:

self.imgs = imgs

elif train:

self.imgs = imgs[:int(0.7 * imgs_num)]

else:

self.imgs = imgs[int(0.7 * imgs_num):]

if transforms is None:

normalize = T.Normalize(mean=[0.485, 0.456, 0.406],

std=[0.229, 0.224, 0.225])

if self.test or not train:

self.transforms = T.Compose([

T.Resize(224),

T.CenterCrop(224),

T.ToTensor(),

normalize

])

else:

self.transforms = T.Compose([

T.Resize(256),

T.RandomReSizedCrop(224),

T.RandomHorizontalFlip(),

T.ToTensor(),

normalize

])

def __getitem__(self, index):

"""

一次返回一张图片的数据

"""

img_path = self.imgs[index]

if self.test:

label = int(self.imgs[index].split('.')[-2].split('/')[-1])

else:

label = 1 if 'dog' in img_path.split('/')[-1] else 0

data = Image.open(img_path)

data = self.transforms(data)

return data, label

def __len__(self):

return len(self.imgs)

详解

这里建立了一个类，继承自data.Dataset，里边有三个方法是必须重写的：

class DogCat(data.Dataset):

def __init__(self, root, transforms=None, train=True, test=False):

"""

主要目标：获取所有图片的地址，并根据训练，验证，测试划分数据

"""

def __getitem__(self, index):

"""

一次返回一张图片的数据

"""

def __len__(self):

下面开始解释每个方法中语句的功能

def __init__(self, root, transforms=None, train=True, test=False):

self.test = test

imgs = [os.path.join(root, img) for img in os.listdir(root)]

if self.test:

imgs = sorted(imgs, key=lambda x: int(x.split('.')[-2].split('/')[-1]))

else:

imgs = sorted(imgs, key=lambda x: int(x.split('.')[-2]))

imgs_num = len(imgs)

if self.test:

self.imgs = imgs

elif train:

self.imgs = imgs[:int(0.7 * imgs_num)]

else:

self.imgs = imgs[int(0.7 * imgs_num):]

if transforms is None:

normalize = T.Normalize(mean=[0.485, 0.456, 0.406],

std=[0.229, 0.224, 0.225])

if self.test or not train:

self.transforms = T.Compose([

T.Resize(224),

T.CenterCrop(224),

T.ToTensor(),

normalize

])

else:

self.transforms = T.Compose([

T.Resize(256),

T.RandomReSizedCrop(224),

T.RandomHorizontalFlip(),

T.ToTensor(),

normalize

])

def __getitem__(self, index):

"""

一次返回一张图片的数据

"""

img_path = self.imgs[index]

if self.test:

label = int(self.imgs[index].split('.')[-2].split('/')[-1])

else:

label = 1 if 'dog' in img_path.split('/')[-1] else 0

data = Image.open(img_path)

data = self.transforms(data)

return data, label

def __len__(self):

return len(self.imgs)

到此位置，数据集的划分与数据类已经完成

完整训练过程可以看我另一篇博客：

https://blog.csdn.net/qq_41685265/article/details/104898848

地下城与勇士可以交易的宠物哪个最好 dnf中哪种宠物最适合交易

dnf玛巴斯宠物技能如何触发？触发技能的正确步骤是什么？

热点分享

布偶猫吃什么对毛发好原来这些食物就可以

对于布偶猫这种长毛猫来说，一般情况下，布偶猫这样的长毛猫咪毛...

这九种宠物既新奇又独特，看完你爱上没有？

这九种宠物既新奇又独特，看完你爱上没有？小猫，小狗，仓鼠...

推荐分享

缅因猫能长多大一种体型较大的猫

缅因猫能长多大?缅因猫是很多人都喜欢的一个品种，尤其是广大的女...

警惕狗贩的骗人损招星期狗的症状特征

警惕狗贩的骗人损招染色：这一招最多的是用在斑点狗、蝴蝶犬...

热门点击排行

养玉米蛇的危害

狗交配为什么会锁住？从狗狗生理结构来分析

分享分类导航

萌宠日常

宠物饲养指南

宠物营养食谱

狗猫分类数据集划分详解

数据集介绍

代码

详解

地下城与勇士可以交易的宠物哪个最好 dnf中哪种宠物最适合交易

dnf玛巴斯宠物技能如何触发？触发技能的正确步骤是什么？

布偶猫吃什么对毛发好 原来这些食物就可以

这九种宠物既新奇又独特，看完你爱上没有？

缅因猫能长多大 一种体型较大的猫

警惕狗贩的骗人损招 星期狗的症状特征

布偶猫吃什么对毛发好原来这些食物就可以

缅因猫能长多大一种体型较大的猫

警惕狗贩的骗人损招星期狗的症状特征