增加:数据集读入、CNN网络训练

2022-06-09 11:19:36 +08:00 · 2022-06-09 11:19:36 +08:00 · ea6ee46971
commit ea6ee46971
parent 0b0dcb27f3
12 changed files with 113 additions and 2 deletions
--- a/Datasets/README.md
+++ b/Datasets/README.md
@ -0,0 +1,15 @@
+## GestureData 手势数据 v1.0
+# 文件格式：
+每个数据集（npz文件）包含：
+1个标签label（手势标签，整个数据集都是这一个标签）；
+500组数据data（每组数据是21*3，即21个点的3维数据，就是demo.py-find_position()中的lm.x, lm.y, lm.z）；
+左右手区分handtype（0为左手，1为右手）；
+画布大小shape（一般都是720*1280，对应demo.py-find_position()中的w, h）。
+
+# 注意事项：
+1. 在使用之前建议先熟悉npz文件的读写与使用（很简单的）；
+2. 数据集shape类最后会保存一个[0, 0]，其他都是正常的[720, 1280]；
+3. 左右手不建议使用，因为面向屏幕的手心手背就可以导致程序的误判。
+
+# 更新说明：
+1. 保存了0~9的手势。
--- a/Datasets/eight.npz
+++ b/Datasets/eight.npz
--- a/Datasets/five.npz
+++ b/Datasets/five.npz
--- a/Datasets/four.npz
+++ b/Datasets/four.npz
--- a/Datasets/nine.npz
+++ b/Datasets/nine.npz
--- a/Datasets/one.npz
+++ b/Datasets/one.npz
--- a/Datasets/seven.npz
+++ b/Datasets/seven.npz
--- a/Datasets/six.npz
+++ b/Datasets/six.npz
--- a/Datasets/three.npz
+++ b/Datasets/three.npz
--- a/Datasets/two.npz
+++ b/Datasets/two.npz
--- a/Datasets/zero.npz
+++ b/Datasets/zero.npz
--- a/demo.py
+++ b/demo.py
@ -9,6 +9,43 @@

 import cv2
 import mediapipe as mp
+import torch
+import torch.nn as nn
+import numpy as np
+from pathlib import Path
+from torch.utils.data import DataLoader, TensorDataset
+
+
+class CNN(nn.Module):
+    def __init__(self):
+        super(CNN, self).__init__()
+        self.out_label = []
+        self.conv1 = nn.Sequential(  # input shape (1, 21, 3)
+            nn.Conv2d(
+                in_channels=1,  # input height
+                out_channels=16,  # n_filters
+                kernel_size=5,  # filter size
+                stride=1,  # filter movement/step
+                padding=2,  # 如果想要 con2d 出来的图片长宽没有变化, padding=(kernel_size-1)/2 当 stride=1
+            ),  # output shape (16, 28, 28)
+            nn.ReLU(),  # activation
+            nn.MaxPool2d(kernel_size=1),  # 在 2x2 空间里向下采样, output shape (16, 14, 14)
+        )
+        self.conv2 = nn.Sequential(  # input shape (16, 14, 14)
+            nn.Conv2d(16, 32, 5, 1, 2),  # output shape (32, 14, 14)
+            nn.ReLU(),  # activation
+            nn.MaxPool2d(3),  # output shape (32, 7, 7)
+        )
+        self.med = nn.Linear(32 * 7 * 1, 500)
+        self.out = nn.Linear(500, 10)  # fully connected layer, output 10 classes
+
+    def forward(self, x):
+        x = self.conv1(x)
+        x = self.conv2(x)
+        x = x.view(x.size(0), -1)  # 展平多维的卷积图成 (batch_size, 32 * 7 * 7)
+        x = self.med(x)
+        output = self.out(x)
+        return output


 class HandDetector:
@ -137,11 +174,68 @@ class HandDetector:

 class Main:
    def __init__(self):
-        self.detector = None
+        self.EPOCH = 20
+        self.BATCH_SIZE = 10
+        self.LR = 10e-5
+        self.DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+
        self.camera = cv2.VideoCapture(0, cv2.CAP_DSHOW)
        self.camera.set(3, 1280)
        self.camera.set(4, 720)

+        self.datasets_dir = "Datasets"
+        self.train_loader = None
+        self.out_label = []  # CNN网络输出后数字标签转和字符串标签的映射关系
+
+        self.detector = None
+
+    def load_datasets(self):
+        train_data = []
+        train_label = []
+
+        for file in Path(self.datasets_dir).rglob("*.npz"):
+            data = np.load(str(file))
+            train_data.append(data["data"])
+            label_number = np.ones(len(data["data"]))*len(self.out_label)
+            train_label.append(label_number)
+            self.out_label.append(data["label"])
+        train_data = torch.Tensor(np.concatenate(train_data, axis=0))
+        train_data = train_data.unsqueeze(1)
+        train_label = torch.tensor(np.concatenate(train_label, axis=0)).long()
+
+        dataset = TensorDataset(train_data, train_label)
+        self.train_loader = DataLoader(dataset, batch_size=self.BATCH_SIZE, shuffle=True)
+
+    def train_cnn(self):
+        cnn = CNN().to(self.DEVICE)
+        optimizer = torch.optim.Adam(cnn.parameters(), self.LR)  # optimize all cnn parameters
+        loss_func = nn.CrossEntropyLoss()  # the target label is not one-hotted
+
+        for epoch in range(self.EPOCH):
+            for step, (data, target) in enumerate(self.train_loader):
+                # 分配 batch data, normalize x when iterate train_loader
+                data, target = data.to(self.DEVICE), target.to(self.DEVICE)
+                output = cnn(data)  # cnn output
+                loss = loss_func(output, target)  # cross entropy loss
+                optimizer.zero_grad()  # clear gradients for this training step
+                loss.backward()  # backpropagation, compute gradients
+                optimizer.step()  # apply gradients
+                if (step + 1) % 100 == 0:  # 输出结果
+                    if (step + 1) % 100 == 0:  # 输出结果
+                        print(
+                            "\r[Epoch: %d] [%d/%d (%0.f %%)][Loss: %f]"
+                            % (
+                                epoch,
+                                step * len(data),
+                                len(self.train_loader.dataset),
+                                100. * step / len(self.train_loader),
+                                loss.item()
+                            ), end="")
+
+        cnn.out_label = self.out_label
+        torch.save(cnn, 'CNN.pkl')
+        print("训练结束")
+
    def gesture_recognition(self):
        self.detector = HandDetector()
        while True:
@ -188,4 +282,6 @@ class Main:

 if __name__ == '__main__':
    Solution = Main()
-    Solution.gesture_recognition()
+    # Solution.gesture_recognition()
+    Solution.load_datasets()
+    Solution.train_cnn()