代码迁移

2024-06-20 18:22:33 +08:00 · 2024-06-20 18:22:33 +08:00 · ff11a09b8b
commit ff11a09b8b
60 changed files with 7123 additions and 0 deletions
--- a/AgeAndGender/AgeGenderPredictor.py
+++ b/AgeAndGender/AgeGenderPredictor.py
@ -0,0 +1,89 @@
 import cv2
 import torch
 from PIL import Image
 from torchvision import transforms, models
 import torch.nn as nn
 class AgeGenderPredictor:
    def __init__(self, model_path):
        self.model = self.load_model(model_path)
        self.gender_labels=['Female','Male']
    def load_model(self, model_path):
        model = models.resnet50(weights=models.ResNet50_Weights.IMAGENET1K_V1)
        num_ftrs = model.fc.in_features
        model.fc = nn.Linear(num_ftrs, 3)  # 输出为性别和年龄
        model.load_state_dict(torch.load(model_path))
        model.eval()
        return model
    def preprocess_image(self, image):
        preprocess = transforms.Compose([
            transforms.Resize(256),
            transforms.CenterCrop(224),
            transforms.ToTensor(),
            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
        image = Image.fromarray(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
        input_tensor = preprocess(image)
        input_batch = input_tensor.unsqueeze(0)
        return input_batch
    def predict(self, face):
        input_batch = self.preprocess_image(face)
        if torch.cuda.is_available():
            input_batch = input_batch.to('cuda')
            self.model.to('cuda')
        with torch.no_grad():
            output = self.model(input_batch)
            gender_preds = output[:, :2]
            age_preds = output[:, -1]
            gender = gender_preds.argmax(dim=1).item()
            age = age_preds.item()
        return self.gender_labels[gender], age, self.age_group(age)
    def age_group(self, age):
        if age <= 18:
            return 'Teenager'
        elif age <= 59:
            return 'Adult'
        else:
            return 'Senior'
 if __name__ == '__main__':
    # 创建 AgeGenderPredictor 类的实例
    predictor = AgeGenderPredictor('megaage_model_epoch99.pth')
    face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml')
    # 打开摄像头
    cap = cv2.VideoCapture(0)
    while True:
        # 读取一帧
        ret, frame = cap.read()
        if not ret:
            break
        # 进行人脸检测
        gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
        faces = face_cascade.detectMultiScale(gray, scaleFactor=1.1, minNeighbors=5, minSize=(30, 30))
        # 对于检测到的每一个人脸
        for (x, y, w, h) in faces:
            # 提取人脸 ROI
            face = frame[y:y + h, x:x + w]
            gender, age, age_group = predictor.predict(face)
            cv2.putText(frame, f'Gender: {gender}, Age: {int(age)}, Age Group: {age_group}', (x, y - 10),
                        cv2.FONT_HERSHEY_SIMPLEX, 0.45, (0, 255, 0), 2)
            cv2.rectangle(frame, (x, y), (x + w, y + h), (0, 255, 0), 2)
        # 显示帧
        cv2.imshow('Webcam', frame)
        if cv2.waitKey(1) & 0xFF == ord('q'):
            break
    # 释放摄像头并关闭所有窗口
    cap.release()
    cv2.destroyAllWindows()
--- a/AgeAndGender/README.md
+++ b/AgeAndGender/README.md
@ -0,0 +1,32 @@
 # 基于视觉的年龄性别预测系统
 该项目是一个基于图像的年龄和性别预测系统。它使用ResNet50模型在MegaAge-Asian数据集上进行训练,然后可以从摄像头输入的视频中检测人脸,并为每个检测到的人脸预测年龄、性别和年龄组。
 ## 文件结构
 - `AgeGenderPredictor.py`: 包含年龄性别预测模型的加载、预处理和推理逻辑。
 - `megaage_model_epoch99.pth`: 在MegaAge-Asian数据集上训练的模型权重文件。
 ## 使用方法
 1. 确保已安装所需的Python库,包括`opencv-python`、`torch`、`torchvision`和`Pillow`。
 2. 运行`AgeGenderPredictor.py`脚本。
 3. 脚本将打开默认摄像头,开始人脸检测和年龄性别预测。
 4. 检测到的人脸周围会用矩形框标注,并显示预测的性别、年龄和年龄组信息。
 5. 按`q`键退出程序。
 ## 模型介绍
 该项目使用ResNet50作为基础模型,对MegaAge-Asian数据集进行训练,以预测人脸图像的年龄和性别。最终模型输出包含3个值,分别对应男性概率、女性概率和估计年龄值。
 ### MegaAge-Asian数据集
 MegaAge-Asian是一个大规模的人脸图像数据集,由商汤发布，总数有40000张图像。数据集中的图像包含了不同年龄和性别的亚洲人脸，年龄范围从1岁到70岁。
 ## 算法流程
 1. **人脸检测**: 使用OpenCV内置的Haar级联人脸检测器在视频帧中检测人脸。
 2. **预处理**: 对检测到的人脸图像进行缩放、裁剪和标准化等预处理,以满足模型的输入要求。
 3. **推理**: 将预处理后的图像输入到预训练的ResNet50模型中,获得性别概率和年龄值的预测结果。
 4. **后处理**: 根据性别概率确定性别标签,将年龄值映射到具体的年龄组。
 5. **可视化**: 在视频帧上绘制人脸矩形框,并显示预测的性别、年龄和年龄组信息。
--- a/BloodPressure/BPApi.py
+++ b/BloodPressure/BPApi.py
@ -0,0 +1,149 @@
 from collections import OrderedDict
 import torch
 import numpy as np
 from matplotlib import pyplot as plt
 from scipy.signal import butter, filtfilt
 import pywt
 from models.lstm import LSTMModel
 class BPModel:
    def __init__(self, model_path, fps=30):
        self.fps = fps
        self.model = LSTMModel()
        self.load_model(model_path)
        self.device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
        self.model = self.model.to(self.device)
        self.model.eval()
        self.warmup()
    def predict(self, frames):
        yg, g, t = self.process_frame_sequence(frames, self.fps)
        yg = yg.reshape(1, -1, 1)
        inputs = torch.tensor(yg.copy(), dtype=torch.float32)
        inputs = inputs.to(self.device)
        with torch.no_grad():
            sbp_outputs, dbp_outputs = self.model(inputs)
        sbp_outputs = sbp_outputs.cpu().detach().numpy().item()
        dbp_outputs = dbp_outputs.cpu().detach().numpy().item()
        return sbp_outputs, dbp_outputs
    def load_model(self, model_path):
        model_state_dict = torch.load(model_path)
        #判断model_state_dict的类型是否是OrderedDict
        if not isinstance(model_state_dict, OrderedDict):
            # model_state_dict=model_state_dict.state_dict()
            #若不是OrderedDict类型，则为LSMTModel类型，直接加载
            self.model = model_state_dict
            return
        #判断是否是多GPU训练的模型
        if 'module' in model_state_dict.keys():
            self.model.load_state_dict(model_state_dict['module'])
        else:
            #遍历模型参数，判断参数前是否有module.
            new_state_dict = {}
            for k, v in model_state_dict.items():
                if 'module.' in k:
                    name = k[7:]
                else:
                    name = k
                new_state_dict[name] = v
            self.model.load_state_dict(new_state_dict)
    # 模型预热
    def warmup(self):
        inputs = torch.randn(10, 250, 1)
        inputs = inputs.to(self.device)
        with torch.no_grad():
            self.model(inputs)
    def wavelet_detrend(self, signal, wavelet='sym6', level=6):
        """
        小波分解和基线漂移去除
        参数:
            signal (numpy.ndarray): 输入信号
            wavelet (str): 小波基函数名称,默认为'sym6'
            level (int): 小波分解层数,默认为6
        返回:
            detrended_signal (numpy.ndarray): 去除基线漂移后的信号
        """
        # 执行小波分解
        coeffs = pywt.wavedec(signal, wavelet, level=level)
        # 获取第六层近似分量(基线漂移)
        cA6 = coeffs[0]
        # 重构信号,去除基线漂移
        coeffs[0] = np.zeros_like(cA6)  # 将基线漂移分量置为零
        detrended_signal = pywt.waverec(coeffs, wavelet)
        return detrended_signal
    def butter_bandpass(self, lowcut, highcut, fs, order=5):
        nyq = 0.5 * fs
        low = lowcut / nyq
        high = highcut / nyq
        b, a = butter(order, [low, high], btype='band')
        return b, a
    def butter_bandpass_filter(self, data, lowcut, highcut, fs, order=5):
        b, a = self.butter_bandpass(lowcut, highcut, fs, order=order)
        y = filtfilt(b, a, data)
        return y
    def process_frame_sequence(self, frames, fps):
        """
        处理帧序列
        参数:
            frames (list): 包含所有帧的列表,每一帧为numpy.ndarray
        返回:
            t (list): 时间序列(秒),从0开始
            yg (numpy.ndarray): 处理后的绿色通道数据
            green (numpy.ndarray): 原始绿色通道数据
        """
        all_frames = frames
        green = []
        for frame in all_frames:
            r, g, b = (frame.mean(axis=0)).mean(axis=0)
            green.append(g)
        t = [i / fps for i in range(len(all_frames))]
        g_detrended = self.wavelet_detrend(green)
        lowcut = 0.6
        highcut = 8
        datag = g_detrended
        yg = self.butter_bandpass_filter(datag, lowcut, highcut, fps, order=4)
        # self.plot(green, t, 'Original Green Channel',color='green')
        # self.plot(g_detrended, t, 'Detrended Green Channel', color='red')
        # self.plot(yg, t, 'Filtered Green Channel',color='blue')
        return yg, green, t
    def plot(self, yg,  t,title,color='green',figsize=(30, 10)):
        plt.figure(figsize=figsize)
        plt.plot(t, yg, label=title, color=color)
        plt.xlabel('Time (s)')
        plt.ylabel('Amplitude')
        plt.legend()
        plt.show()
--- a/BloodPressure/README.md
+++ b/BloodPressure/README.md
@ -0,0 +1,63 @@
 # 基于rPPG的血压估计系统
 该项目是一个基于远程光电容积脉搏波描记法（rPPG）的血压估计系统。它使用LSTM神经网络在多个rPPG数据集上进行训练，然后可以从视频中提取光学脉冲信号，并预测个体的收缩压（SBP）和舒张压（DBP）值。
 ## 核心文件
 - `BPApi.py`： 包含BP估计模型的核心逻辑，如信号预处理、模型推理等。
 - `lstm.py`： 定义了用于BP估计的LSTM神经网络架构。
 - `video.py`： 视频处理、人脸检测和BP估计的主要脚本。
 - `best_model.pth`： 在多个数据集上训练的最佳模型权重文件。
 ## 使用方法
 1. 确保已安装所需的Python库，包括`opencv-python`、`torch`、`numpy`、`scipy`和`pywavelets`。
 2. 运行`video.py`脚本。
 3. 脚本将打开默认摄像头，开始人脸检测和BP估计。
 4. 检测到的人脸区域将被提取用于BP估计，预测结果将显示在视频流窗口中。
 5. 按`q`键退出程序。
 ## 模型介绍
 该项目使用LSTM神经网络作为基础模型，使用大规模PPG信号数据集进行预训练，并进一步使用rPPG信号数据集进行微调，以预测个体的SBP和DBP值。模型输出包含两个值，分别对应SBP和DBP的预测值。
 ### 数据集介绍
 该项目使用了以下三个公开的rPPG数据集进行训练：
 1. **MIMIC-III数据集**： 包含9054000条PPG信号序列和对应的SBP/DBP标签。
 2. **UKL-rPPG数据集**： 包含7851条rPPG信号序列和对应的SBP/DBP标签。
 3. **iPPG-BP数据集**： 包含2120条rPPG信号序列和对应的SBP/DBP标签。
 ## 算法流程
 1. **视频采集**：
   - 使用OpenCV库初始化视频捕捉对象，并获取视频的帧率。
 2. **人脸检测**：
   - 在每一帧上使用Haar级联人脸检测器进行人脸检测。
   - 如果检测到人脸，获取人脸区域的边界框坐标。
 3. **帧序列提取**：
   - 维护一个固定长度（如250帧）的循环队列，用于存储最近的人脸帧序列。
   - 对于新检测到的人脸，将其添加到队列中。
 4. **信号预处理**：
   - 当队列满时，执行以下预处理步骤：
     - 从人脸帧序列中提取绿色通道信号。
     - 使用小波变换进行去趋势，消除基线漂移。
     - 使用带通滤波器去除高频和低频噪声，保留有效的脉搏频率范围。
 5. **推理**：
   - 将预处理后的绿色通道信号输入到LSTM神经网络模型中。
   - 模型输出SBP和DBP的预测值。
 6. **可视化**：
   - 在视频帧上绘制人脸边界框。
   - 在视频帧上显示预测的SBP和DBP值。
 7. **持续循环**：
   - 对新的视频帧重复执行步骤2-6，持续进行人脸检测、BP估计和可视化。
 8. **退出**：
   - 当用户按下特定按键（如'q'）时，退出程序，关闭视频捕捉对象和所有窗口。
--- a/BloodPressure/dataloader.py
+++ b/BloodPressure/dataloader.py
@ -0,0 +1,285 @@
 import os
 import numpy as np
 import torch
 from torch.utils.data import Dataset, DataLoader
 from sklearn.model_selection import train_test_split
 import h5py
 def custom_collate_fn(batch):
    X, y_SBP, y_DBP = zip(*batch)
    X = torch.tensor(np.array(X), dtype=torch.float32)
    y_SBP = torch.tensor(y_SBP, dtype=torch.float32)
    y_DBP = torch.tensor(y_DBP, dtype=torch.float32)
    return X, y_SBP, y_DBP
 class BPDataset(Dataset):
    def __init__(self, X_data, y_SBP, y_DBP):
        self.X_data = X_data
        self.y_SBP = y_SBP
        self.y_DBP = y_DBP
    def __len__(self):
        return len(self.y_SBP)
    def __getitem__(self, idx):
        # X_sample = self.X_data[idx * 250:(idx + 1) * 250]
        X_sample = self.X_data[idx]
        y_SBP_sample = self.y_SBP[idx]
        y_DBP_sample = self.y_DBP[idx]
        return X_sample, y_SBP_sample, y_DBP_sample
 class BPDataLoader:
    def __init__(self, data_dir, val_split=0.2, batch_size=32, shuffle=True, data_type='npy'):
        self.data_dir = data_dir
        self.val_split = val_split
        self.batch_size = batch_size
        self.shuffle = shuffle
        self.train_dataloader = None
        self.val_dataloader = None
        self.data_type = data_type
    def load_data(self):
        X_BP_path = os.path.join(self.data_dir, 'X_BP.npy')
        y_DBP_path = os.path.join(self.data_dir, 'Y_DBP.npy')
        y_SBP_path = os.path.join(self.data_dir, 'Y_SBP.npy')
        X_BP = np.load(X_BP_path)
        # 将数据reshape成(batch_size, 250,1)的形状
        X_BP = X_BP.reshape(-1, 250, 1)
        y_DBP = np.load(y_DBP_path)
        y_SBP = np.load(y_SBP_path)
        return X_BP, y_DBP, y_SBP
    def load_data_UKL_h5(self):
        X_BP_path = os.path.join(self.data_dir, 'rPPG-BP-UKL_rppg_7s.h5')
        with h5py.File(X_BP_path, 'r') as f:
            rppg = f.get('rppg')
            BP = f.get('label')
            rppg = np.array(rppg)
            BP = np.array(BP)
            # 将数据从(875, 7851)reshape成(7851, 875, 1)的形状
            rppg = rppg.transpose(1, 0)
            rppg = rppg.reshape(-1, 875, 1)
            X_BP = rppg
            y_DBP = BP[1]
            y_SBP = BP[0]
        return X_BP, y_DBP, y_SBP
    def load_data_MIMIC_h5(self):
        X_BP_path = os.path.join(self.data_dir, 'MIMIC-III_ppg_dataset.h5')
        #
        # 获取data_dir下文件列表
        files = os.listdir(self.data_dir)
        # 检查是否存在已经处理好的数据
        if 'X_MIMIC_BP.npy' in files and 'Y_MIMIC_DBP.npy' in files and 'Y_MIMIC_SBP.npy' in files:
            print('loading preprocessed data.....')
            X_BP = np.load(os.path.join(self.data_dir, 'X_MIMIC_BP.npy'))
            y_DBP = np.load(os.path.join(self.data_dir, 'Y_MIMIC_DBP.npy'))
            y_SBP = np.load(os.path.join(self.data_dir, 'Y_MIMIC_SBP.npy'))
            return X_BP, y_DBP, y_SBP
        with h5py.File(X_BP_path, 'r') as f:
            ppg = f.get('ppg')
            BP = f.get('label')
            ppg = np.array(ppg)
            BP = np.array(BP)
            # 统计BP中SBP的最大值和最小值
            max_sbp = np.max(BP[:, 0])
            min_sbp = np.min(BP[:, 0])
            max_sbp = 10 - max_sbp % 10 + max_sbp
            min_sbp = min_sbp - min_sbp % 10
            # 划分区间
            bins = np.arange(min_sbp, max_sbp, 10)
            print(bins)
            sampled_ppg_data = []
            sampled_bp_data = []
            for i in range(len(bins) - 1):
                # 获取当前区间的数据
                bin_data_sbp_dbp = BP[(BP[:, 0] >= bins[i]) & (BP[:, 0] < bins[i + 1])]
                bin_data_ppg = ppg[(BP[:, 0] >= bins[i]) & (BP[:, 0] < bins[i + 1])]
                # 如果当前区间有数据
                if len(bin_data_sbp_dbp) > 0:
                    # 从当前区间中随机抽取20%的数据
                    num_samples = int(len(bin_data_sbp_dbp) * 0.1)
                    indices = np.random.choice(len(bin_data_sbp_dbp), num_samples, replace=False)
                    sampled_bin_data_sbp_dbp = bin_data_sbp_dbp[indices]
                    sampled_bin_data_ppg = bin_data_ppg[indices]
                    # 将抽取的数据添加到最终的列表中
                    sampled_bp_data.append(sampled_bin_data_sbp_dbp)
                    sampled_ppg_data.append(sampled_bin_data_ppg)
            # 将列表中的数据合并成NumPy数组
            ppg = np.concatenate(sampled_ppg_data, axis=0)
            BP = np.concatenate(sampled_bp_data, axis=0)
            print(ppg.shape, BP.shape)
            # 将数据从(9054000, 875)reshape成(9054000, 875, 1)的形状
            ppg = ppg.reshape(-1, 875, 1)
            X_BP = ppg
            # 取出第一列赋值给y_DBP，第0列赋值给y_SBP
            y_DBP = BP[:, 1]
            y_SBP = BP[:, 0]
            # 将数据保存到文件中
            np.save('data/X_MIMIC_BP.npy', X_BP)
            np.save('data/Y_MIMIC_DBP.npy', y_DBP)
            np.save('data/Y_MIMIC_SBP.npy', y_SBP)
        return X_BP, y_DBP, y_SBP
    def load_data_MIMIC_h5_full(self):
        X_BP_path = os.path.join(self.data_dir, 'MIMIC-III_ppg_dataset.h5')
        # 获取data_dir下文件列表
        files = os.listdir(self.data_dir)
        # 检查是否存在已经处理好的数据
        if 'X_MIMIC_BP_full.npy' in files and 'Y_MIMIC_DBP_full.npy' in files and 'Y_MIMIC_SBP_full.npy' in files:
            print('loading preprocessed data.....')
            X_BP = np.load(os.path.join(self.data_dir, 'X_MIMIC_BP_full.npy'))
            y_DBP = np.load(os.path.join(self.data_dir, 'Y_MIMIC_DBP_full.npy'))
            y_SBP = np.load(os.path.join(self.data_dir, 'Y_MIMIC_SBP_full.npy'))
            return X_BP, y_DBP, y_SBP
        with h5py.File(X_BP_path, 'r') as f:
            ppg = f.get('ppg')
            BP = f.get('label')
            ppg = np.array(ppg)
            BP = np.array(BP)
            # 将数据从(9054000, 875)reshape成(9054000, 875, 1)的形状
            ppg = ppg.reshape(-1, 875, 1)
            X_BP = ppg
            # 取出第一列赋值给y_DBP，第0列赋值给y_SBP
            y_DBP = BP[:, 1]
            y_SBP = BP[:, 0]
            print("data shape:", X_BP.shape, y_DBP.shape, y_SBP.shape)
            print("saving data.....")
            # 将数据保存到文件中
            np.save('data/X_MIMIC_BP_full.npy', X_BP)
            np.save('data/Y_MIMIC_DBP_full.npy', y_DBP)
            np.save('data/Y_MIMIC_SBP_full.npy', y_SBP)
            print("data saved.....")
        return X_BP, y_DBP, y_SBP
    def create_dataset(self, X_data, y_SBP, y_DBP):
        return BPDataset(X_data, y_SBP, y_DBP)
    def split_data(self, X_data, y_SBP, y_DBP):
        X_train, X_val, y_train_SBP, y_val_SBP, y_train_DBP, y_val_DBP = train_test_split(
            X_data, y_SBP, y_DBP, test_size=self.val_split, random_state=42
        )
        # print(X_train.shape, X_val.shape, y_train_SBP.shape, y_val_SBP.shape, y_train_DBP.shape, y_val_DBP.shape)
        train_dataset = self.create_dataset(X_train, y_train_SBP, y_train_DBP)
        val_dataset = self.create_dataset(X_val, y_val_SBP, y_val_DBP)
        return train_dataset, val_dataset
    def create_dataloaders(self):
        if self.data_type == 'UKL':
            X_data, y_DBP, y_SBP = self.load_data_UKL_h5()
        elif self.data_type == 'MIMIC':
            X_data, y_DBP, y_SBP = self.load_data_MIMIC_h5()
        elif self.data_type == 'MIMIC_full':
            X_data, y_DBP, y_SBP = self.load_data_MIMIC_h5_full()
        else:
            X_data, y_DBP, y_SBP = self.load_data()
        train_dataset, val_dataset = self.split_data(X_data, y_SBP, y_DBP)
        self.train_dataloader = DataLoader(
            train_dataset, batch_size=self.batch_size, shuffle=self.shuffle, collate_fn=custom_collate_fn
        )
        self.val_dataloader = DataLoader(
            val_dataset, batch_size=self.batch_size, shuffle=False, collate_fn=custom_collate_fn
        )
    def get_dataloaders(self):
        if self.train_dataloader is None or self.val_dataloader is None:
            self.create_dataloaders()
        return self.train_dataloader, self.val_dataloader
    def get_distributed_dataloaders(self, world_size, rank):
        if self.data_type == 'UKL':
            X_data, y_DBP, y_SBP = self.load_data_UKL_h5()
        elif self.data_type == 'MIMIC':
            X_data, y_DBP, y_SBP = self.load_data_MIMIC_h5()
        elif self.data_type == 'MIMIC_full':
            X_data, y_DBP, y_SBP = self.load_data_MIMIC_h5_full()
        else:
            X_data, y_DBP, y_SBP = self.load_data()
        train_dataset, val_dataset = self.split_data(X_data, y_SBP, y_DBP)
        train_sampler = torch.utils.data.distributed.DistributedSampler(
            train_dataset, num_replicas=world_size, rank=rank, shuffle=True
        )
        val_sampler = torch.utils.data.distributed.DistributedSampler(
            val_dataset, num_replicas=world_size, rank=rank, shuffle=False
        )
        train_dataloader = DataLoader(
            train_dataset,
            batch_size=self.batch_size,
            sampler=train_sampler,
            collate_fn=custom_collate_fn,
        )
        val_dataloader = DataLoader(
            val_dataset,
            batch_size=self.batch_size,
            sampler=val_sampler,
            collate_fn=custom_collate_fn,
        )
        return train_dataloader, val_dataloader, train_sampler, val_sampler
 # 使用示例
 #
 # data_loader = BPDataLoader(data_dir='data', val_split=0.2, batch_size=32,data_type='MIMIC')
 # train_dataloader, val_dataloader = data_loader.get_dataloaders()
 #
 # for i, (X, y_SBP, y_DBP) in enumerate(train_dataloader):
 #     print(f"Batch {i+1}: X.shape={X.shape }, y_SBP.shape={y_SBP.shape}, y_DBP.shape={y_DBP.shape}")
 #     if i == 2:
 #         break
--- a/BloodPressure/ddp_MIMIC_full.py
+++ b/BloodPressure/ddp_MIMIC_full.py
@ -0,0 +1,195 @@
 import os
 import argparse
 import torch
 import torch.nn as nn
 import torch.optim as optim
 import torch.multiprocessing as mp
 import torch.distributed as dist
 from torch.utils.tensorboard import SummaryWriter
 from tqdm import tqdm
 from dataloader import BPDataLoader
 from models.lstm import LSTMModel
 # 定义TensorBoard写入器
 writer = SummaryWriter()
 # 定义训练参数
 max_epochs = 100
 batch_size = 1024
 warmup_epochs = 10
 lr = 0.0005
 def train(gpu, args):
    os.environ['MASTER_ADDR'] = '127.0.0.1'
    os.environ['MASTER_PORT'] = '12355'
    rank = args.nr * args.gpus + gpu
    dist.init_process_group(
        backend="nccl",
        # init_method="env://",
        world_size=args.world_size,
        rank=rank,
    )
    # 设置当前 GPU 设备
    torch.cuda.set_device(gpu)
    # 创建模型并移动到对应 GPU
    model = LSTMModel().to(gpu)
    model = nn.parallel.DistributedDataParallel(model, device_ids=[gpu])
    # 定义损失函数
    criterion = nn.MSELoss().to(gpu)
    # 定义优化器
    optimizer = optim.Adam(model.parameters(), lr=lr)
    # 定义学习率调度器
    scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=max_epochs - warmup_epochs, eta_min=1e-6)
    # 准备数据加载器
    data_type = 'MIMIC_full'
    # #检查模型存放路径是否存在
    # if not os.path.exists(f'weights'):
    #     os.makedirs(f'weights')
    # if not os.path.exists(f'weights/{data_type}'):
    #     os.makedirs(f'weights/{data_type}')
    data_loader = BPDataLoader(data_dir='data', val_split=0.2, batch_size=batch_size, data_type=data_type)
    train_loader, val_loader ,train_sampler, val_sampler = data_loader.get_distributed_dataloaders(rank=gpu, world_size=args.world_size)
    best_val_loss_sbp = float('inf')
    best_val_loss_dbp = float('inf')
    for epoch in range(max_epochs):
        if epoch < warmup_epochs:
            warmup_lr = 1e-6 + (epoch + 1) * (5e-4 - 1e-6) / warmup_epochs
            for param_group in optimizer.param_groups:
                param_group['lr'] = warmup_lr
        train_sampler.set_epoch(epoch)
        train_loss = run_train(model, train_loader, optimizer, criterion, epoch, gpu)
        val_loss_sbp, val_loss_dbp = run_evaluate(model, val_loader, criterion, gpu)
        if gpu == 0:
            writer.add_scalar("Loss/train", train_loss, epoch)
            writer.add_scalar("Loss/val_sbp", val_loss_sbp, epoch)
            writer.add_scalar("Loss/val_dbp", val_loss_dbp, epoch)
            print(f"Epoch {epoch+1}/{max_epochs}, Train Loss: {train_loss:.4f}, Val Loss SBP: {val_loss_sbp:.4f}, Val Loss DBP: {val_loss_dbp:.4f}")
            if val_loss_sbp < best_val_loss_sbp or val_loss_dbp < best_val_loss_dbp:
                best_val_loss_sbp = val_loss_sbp
                best_val_loss_dbp = val_loss_dbp
                torch.save(model.module, f'weights/{data_type}/best_{epoch}_lstm_model_sbp{val_loss_sbp:.4f}_dbp{val_loss_dbp:.4f}.pth')
            torch.save(model.module, f'weights/{data_type}/last.pth')
        scheduler.step()
    writer.close()
 def reduce_tensor(tensor):
    rt = tensor.clone()
    dist.all_reduce(rt, op=dist.ReduceOp.SUM)
    rt /= dist.get_world_size()
    return rt
 def run_train(model, dataloader, optimizer, criterion, epoch, gpu):
    model.train()
    running_loss = 0.0
    pbar = tqdm(dataloader, total=len(dataloader), disable=(gpu != 0),desc=f"GPU{gpu} Epoch {epoch+1}/{max_epochs}")
    for i, (inputs, sbp_labels, dbp_labels) in enumerate(pbar):
        inputs = inputs.cuda(gpu, non_blocking=True)
        sbp_labels = sbp_labels.cuda(gpu, non_blocking=True)
        dbp_labels = dbp_labels.cuda(gpu, non_blocking=True)
        optimizer.zero_grad()
        sbp_outputs, dbp_outputs = model(inputs)
        sbp_outputs = sbp_outputs.squeeze(1)
        dbp_outputs = dbp_outputs.squeeze(1)
        loss_sbp = criterion(sbp_outputs, sbp_labels)
        loss_dbp = criterion(dbp_outputs, dbp_labels)
        loss = loss_sbp + loss_dbp
        reduced_loss = reduce_tensor(loss)
        reduced_loss.backward()
        optimizer.step()
        running_loss += reduced_loss.item()
        pbar.set_postfix(loss=running_loss / (i + 1))
    return running_loss / len(dataloader)
 def run_evaluate(model, dataloader, criterion, gpu):
    model.eval()
    running_loss_sbp = 0.0
    running_loss_dbp = 0.0
    with torch.no_grad():
        for inputs, sbp_labels, dbp_labels in dataloader:
            inputs = inputs.cuda(gpu, non_blocking=True)
            sbp_labels = sbp_labels.cuda(gpu, non_blocking=True)
            dbp_labels = dbp_labels.cuda(gpu, non_blocking=True)
            sbp_outputs, dbp_outputs = model(inputs)
            sbp_outputs = sbp_outputs.squeeze(1)
            dbp_outputs = dbp_outputs.squeeze(1)
            loss_sbp = criterion(sbp_outputs, sbp_labels)
            loss_dbp = criterion(dbp_outputs, dbp_labels)
            reduced_loss_sbp = reduce_tensor(loss_sbp)
            reduced_loss_dbp = reduce_tensor(loss_dbp)
            running_loss_sbp += reduced_loss_sbp.item()
            running_loss_dbp += reduced_loss_dbp.item()
    eval_loss_sbp = running_loss_sbp / len(dataloader)
    eval_loss_dbp = running_loss_dbp / len(dataloader)
    return eval_loss_sbp, eval_loss_dbp
 def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("--nr", type=int, default=0)
    args = parser.parse_args()
    return args
 def main():
    args = parse_args()
    ngpus_per_node = torch.cuda.device_count()
    if ngpus_per_node>4:
        ngpus_per_node = 4
    args.world_size = ngpus_per_node
    args.gpus = max(ngpus_per_node, 1)
    mp.spawn(train, nprocs=args.gpus, args=(args,))
 #检查模型存放路径是否存在
 def check_path(data_type):
    if not os.path.exists(f'weights'):
        os.makedirs(f'weights')
    if not os.path.exists(f'weights/{data_type}'):
        os.makedirs(f'weights/{data_type}')
 if __name__ == "__main__":
    check_path('MIMIC_full')
    main()
--- a/BloodPressure/ddp_UKL.py
+++ b/BloodPressure/ddp_UKL.py
@ -0,0 +1,200 @@
 import os
 import argparse
 import torch
 import torch.nn as nn
 import torch.optim as optim
 import torch.multiprocessing as mp
 import torch.distributed as dist
 from torch.utils.tensorboard import SummaryWriter
 from tqdm import tqdm
 from dataloader import BPDataLoader
 from models.lstm import LSTMModel
 # 定义TensorBoard写入器
 writer = SummaryWriter()
 # 定义训练参数
 max_epochs = 100
 batch_size = 1024
 warmup_epochs = 10
 lr = 0.0005
 def train(gpu, args):
    os.environ['MASTER_ADDR'] = '127.0.0.1'
    os.environ['MASTER_PORT'] = '12355'
    rank = args.nr * args.gpus + gpu
    dist.init_process_group(
        backend="nccl",
        # init_method="env://",
        world_size=args.world_size,
        rank=rank,
    )
    # 设置当前 GPU 设备
    torch.cuda.set_device(gpu)
    # 创建模型并移动到对应 GPU
    model = LSTMModel().to(gpu)
    w = torch.load(r'weights/MIMIC_full/best_90_lstm_model_sbp267.4183_dbp89.7367.pth',
                   map_location=torch.device(f'cuda:{gpu}'))
    # 加载权重
    model.load_state_dict(w.state_dict())
    model = nn.parallel.DistributedDataParallel(model, device_ids=[gpu])
    # 定义损失函数
    criterion = nn.MSELoss().to(gpu)
    # 定义优化器
    optimizer = optim.Adam(model.parameters(), lr=lr)
    # 定义学习率调度器
    scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=max_epochs - warmup_epochs, eta_min=1e-6)
    # 准备数据加载器
    data_type = 'UKL'
    # #检查模型存放路径是否存在
    # if not os.path.exists(f'weights'):
    #     os.makedirs(f'weights')
    # if not os.path.exists(f'weights/{data_type}'):
    #     os.makedirs(f'weights/{data_type}')
    data_loader = BPDataLoader(data_dir='data', val_split=0.2, batch_size=batch_size, data_type=data_type)
    train_loader, val_loader ,train_sampler, val_sampler = data_loader.get_distributed_dataloaders(rank=gpu, world_size=args.world_size)
    best_val_loss_sbp = float('inf')
    best_val_loss_dbp = float('inf')
    for epoch in range(max_epochs):
        if epoch < warmup_epochs:
            warmup_lr = 1e-6 + (epoch + 1) * (5e-4 - 1e-6) / warmup_epochs
            for param_group in optimizer.param_groups:
                param_group['lr'] = warmup_lr
        train_sampler.set_epoch(epoch)
        train_loss = run_train(model, train_loader, optimizer, criterion, epoch, gpu)
        val_loss_sbp, val_loss_dbp = run_evaluate(model, val_loader, criterion, gpu)
        if gpu == 0:
            writer.add_scalar("Loss/train", train_loss, epoch)
            writer.add_scalar("Loss/val_sbp", val_loss_sbp, epoch)
            writer.add_scalar("Loss/val_dbp", val_loss_dbp, epoch)
            print(f"Epoch {epoch+1}/{max_epochs}, Train Loss: {train_loss:.4f}, Val Loss SBP: {val_loss_sbp:.4f}, Val Loss DBP: {val_loss_dbp:.4f}")
            if val_loss_sbp < best_val_loss_sbp or val_loss_dbp < best_val_loss_dbp:
                best_val_loss_sbp = val_loss_sbp
                best_val_loss_dbp = val_loss_dbp
                torch.save(model.module, f'weights/{data_type}/best_{epoch}_lstm_model_sbp{val_loss_sbp:.4f}_dbp{val_loss_dbp:.4f}.pth')
            torch.save(model.module, f'weights/{data_type}/last.pth')
        scheduler.step()
    writer.close()
 def reduce_tensor(tensor):
    rt = tensor.clone()
    dist.all_reduce(rt, op=dist.ReduceOp.SUM)
    rt /= dist.get_world_size()
    return rt
 def run_train(model, dataloader, optimizer, criterion, epoch, gpu):
    model.train()
    running_loss = 0.0
    pbar = tqdm(dataloader, total=len(dataloader), disable=(gpu != 0),desc=f"GPU{gpu} Epoch {epoch+1}/{max_epochs}")
    for i, (inputs, sbp_labels, dbp_labels) in enumerate(pbar):
        inputs = inputs.cuda(gpu, non_blocking=True)
        sbp_labels = sbp_labels.cuda(gpu, non_blocking=True)
        dbp_labels = dbp_labels.cuda(gpu, non_blocking=True)
        optimizer.zero_grad()
        sbp_outputs, dbp_outputs = model(inputs)
        sbp_outputs = sbp_outputs.squeeze(1)
        dbp_outputs = dbp_outputs.squeeze(1)
        loss_sbp = criterion(sbp_outputs, sbp_labels)
        loss_dbp = criterion(dbp_outputs, dbp_labels)
        loss = loss_sbp + loss_dbp
        reduced_loss = reduce_tensor(loss)
        reduced_loss.backward()
        optimizer.step()
        running_loss += reduced_loss.item()
        pbar.set_postfix(loss=running_loss / (i + 1))
    return running_loss / len(dataloader)
 def run_evaluate(model, dataloader, criterion, gpu):
    model.eval()
    running_loss_sbp = 0.0
    running_loss_dbp = 0.0
    with torch.no_grad():
        for inputs, sbp_labels, dbp_labels in dataloader:
            inputs = inputs.cuda(gpu, non_blocking=True)
            sbp_labels = sbp_labels.cuda(gpu, non_blocking=True)
            dbp_labels = dbp_labels.cuda(gpu, non_blocking=True)
            sbp_outputs, dbp_outputs = model(inputs)
            sbp_outputs = sbp_outputs.squeeze(1)
            dbp_outputs = dbp_outputs.squeeze(1)
            loss_sbp = criterion(sbp_outputs, sbp_labels)
            loss_dbp = criterion(dbp_outputs, dbp_labels)
            reduced_loss_sbp = reduce_tensor(loss_sbp)
            reduced_loss_dbp = reduce_tensor(loss_dbp)
            running_loss_sbp += reduced_loss_sbp.item()
            running_loss_dbp += reduced_loss_dbp.item()
    eval_loss_sbp = running_loss_sbp / len(dataloader)
    eval_loss_dbp = running_loss_dbp / len(dataloader)
    return eval_loss_sbp, eval_loss_dbp
 def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("--nr", type=int, default=0)
    args = parser.parse_args()
    return args
 def main():
    args = parse_args()
    ngpus_per_node = torch.cuda.device_count()
    if ngpus_per_node>4:
        ngpus_per_node = 4
    args.world_size = ngpus_per_node
    args.gpus = max(ngpus_per_node, 1)
    mp.spawn(train, nprocs=args.gpus, args=(args,))
 def check_path(data_type):
    if not os.path.exists(f'weights'):
        os.makedirs(f'weights')
    if not os.path.exists(f'weights/{data_type}'):
        os.makedirs(f'weights/{data_type}')
 if __name__ == "__main__":
    check_path('UKL')
    main()
--- a/BloodPressure/ddp_X.py
+++ b/BloodPressure/ddp_X.py
@ -0,0 +1,198 @@
 import os
 import argparse
 import torch
 import torch.nn as nn
 import torch.optim as optim
 import torch.multiprocessing as mp
 import torch.distributed as dist
 from torch.utils.tensorboard import SummaryWriter
 from tqdm import tqdm
 from dataloader import BPDataLoader
 from models.lstm import LSTMModel
 # 定义TensorBoard写入器
 writer = SummaryWriter()
 # 定义训练参数
 max_epochs = 100
 batch_size = 1024
 warmup_epochs = 10
 lr = 0.0005
 def train(gpu, args):
    os.environ['MASTER_ADDR'] = '127.0.0.1'
    os.environ['MASTER_PORT'] = '12355'
    rank = args.nr * args.gpus + gpu
    dist.init_process_group(
        backend="nccl",
        # init_method="env://",
        world_size=args.world_size,
        rank=rank,
    )
    # 设置当前 GPU 设备
    torch.cuda.set_device(gpu)
    # 创建模型并移动到对应 GPU
    model = LSTMModel().to(gpu)
    w = torch.load(r'weights/UKL/best_99_lstm_model_sbp90.9980_dbp51.0640.pth',
                   map_location=torch.device(f'cuda:{gpu}'))
    # 加载权重
    model.load_state_dict(w.state_dict())
    model = nn.parallel.DistributedDataParallel(model, device_ids=[gpu])
    # 定义损失函数
    criterion = nn.MSELoss().to(gpu)
    # 定义优化器
    optimizer = optim.Adam(model.parameters(), lr=lr)
    # 定义学习率调度器
    scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=max_epochs - warmup_epochs, eta_min=1e-6)
    # 准备数据加载器
    data_type = 'X'
    # #检查模型存放路径是否存在
    # if not os.path.exists(f'weights'):
    #     os.makedirs(f'weights')
    # if not os.path.exists(f'weights/{data_type}'):
    #     os.makedirs(f'weights/{data_type}')
    data_loader = BPDataLoader(data_dir='data', val_split=0.2, batch_size=batch_size, data_type=data_type)
    train_loader, val_loader ,train_sampler, val_sampler = data_loader.get_distributed_dataloaders(rank=gpu, world_size=args.world_size)
    best_val_loss_sbp = float('inf')
    best_val_loss_dbp = float('inf')
    for epoch in range(max_epochs):
        if epoch < warmup_epochs:
            warmup_lr = 1e-6 + (epoch + 1) * (5e-4 - 1e-6) / warmup_epochs
            for param_group in optimizer.param_groups:
                param_group['lr'] = warmup_lr
        train_sampler.set_epoch(epoch)
        train_loss = run_train(model, train_loader, optimizer, criterion, epoch, gpu)
        val_loss_sbp, val_loss_dbp = run_evaluate(model, val_loader, criterion, gpu)
        if gpu == 0:
            writer.add_scalar("Loss/train", train_loss, epoch)
            writer.add_scalar("Loss/val_sbp", val_loss_sbp, epoch)
            writer.add_scalar("Loss/val_dbp", val_loss_dbp, epoch)
            print(f"Epoch {epoch+1}/{max_epochs}, Train Loss: {train_loss:.4f}, Val Loss SBP: {val_loss_sbp:.4f}, Val Loss DBP: {val_loss_dbp:.4f}")
            if val_loss_sbp < best_val_loss_sbp or val_loss_dbp < best_val_loss_dbp:
                best_val_loss_sbp = val_loss_sbp
                best_val_loss_dbp = val_loss_dbp
                torch.save(model.module, f'weights/{data_type}/best_{epoch}_lstm_model_sbp{val_loss_sbp:.4f}_dbp{val_loss_dbp:.4f}.pth')
            torch.save(model.module, f'weights/{data_type}/last.pth')
        scheduler.step()
    writer.close()
 def reduce_tensor(tensor):
    rt = tensor.clone()
    dist.all_reduce(rt, op=dist.ReduceOp.SUM)
    rt /= dist.get_world_size()
    return rt
 def run_train(model, dataloader, optimizer, criterion, epoch, gpu):
    model.train()
    running_loss = 0.0
    pbar = tqdm(dataloader, total=len(dataloader), disable=(gpu != 0),desc=f"GPU{gpu} Epoch {epoch+1}/{max_epochs}")
    for i, (inputs, sbp_labels, dbp_labels) in enumerate(pbar):
        inputs = inputs.cuda(gpu, non_blocking=True)
        sbp_labels = sbp_labels.cuda(gpu, non_blocking=True)
        dbp_labels = dbp_labels.cuda(gpu, non_blocking=True)
        optimizer.zero_grad()
        sbp_outputs, dbp_outputs = model(inputs)
        sbp_outputs = sbp_outputs.squeeze(1)
        dbp_outputs = dbp_outputs.squeeze(1)
        loss_sbp = criterion(sbp_outputs, sbp_labels)
        loss_dbp = criterion(dbp_outputs, dbp_labels)
        loss = loss_sbp + loss_dbp
        reduced_loss = reduce_tensor(loss)
        reduced_loss.backward()
        optimizer.step()
        running_loss += reduced_loss.item()
        pbar.set_postfix(loss=running_loss / (i + 1))
    return running_loss / len(dataloader)
 def run_evaluate(model, dataloader, criterion, gpu):
    model.eval()
    running_loss_sbp = 0.0
    running_loss_dbp = 0.0
    with torch.no_grad():
        for inputs, sbp_labels, dbp_labels in dataloader:
            inputs = inputs.cuda(gpu, non_blocking=True)
            sbp_labels = sbp_labels.cuda(gpu, non_blocking=True)
            dbp_labels = dbp_labels.cuda(gpu, non_blocking=True)
            sbp_outputs, dbp_outputs = model(inputs)
            sbp_outputs = sbp_outputs.squeeze(1)
            dbp_outputs = dbp_outputs.squeeze(1)
            loss_sbp = criterion(sbp_outputs, sbp_labels)
            loss_dbp = criterion(dbp_outputs, dbp_labels)
            reduced_loss_sbp = reduce_tensor(loss_sbp)
            reduced_loss_dbp = reduce_tensor(loss_dbp)
            running_loss_sbp += reduced_loss_sbp.item()
            running_loss_dbp += reduced_loss_dbp.item()
    eval_loss_sbp = running_loss_sbp / len(dataloader)
    eval_loss_dbp = running_loss_dbp / len(dataloader)
    return eval_loss_sbp, eval_loss_dbp
 def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument("--nr", type=int, default=0)
    args = parser.parse_args()
    return args
 def main():
    args = parse_args()
    ngpus_per_node = torch.cuda.device_count()
    if ngpus_per_node>4:
        ngpus_per_node = 4
    args.world_size = ngpus_per_node
    args.gpus = max(ngpus_per_node, 1)
    mp.spawn(train, nprocs=args.gpus, args=(args,))
 def check_path(data_type):
    if not os.path.exists(f'weights'):
        os.makedirs(f'weights')
    if not os.path.exists(f'weights/{data_type}'):
        os.makedirs(f'weights/{data_type}')
 if __name__ == "__main__":
    check_path('X')
    main()
--- a/BloodPressure/models/lstm.py
+++ b/BloodPressure/models/lstm.py
@ -0,0 +1,62 @@
 import torch
 import torch.nn as nn
 class LSTMModel(nn.Module):
    def __init__(self, input_size=1, hidden_size=128, output_size=2):
        super(LSTMModel, self).__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.conv1d = nn.Conv1d(input_size, 64, kernel_size=5, padding=2)
        self.relu = nn.ReLU()
        self.lstm1 = nn.LSTM(64, hidden_size, bidirectional=True, batch_first=True)
        self.lstm2 = nn.LSTM(hidden_size * 2, hidden_size, bidirectional=True, batch_first=True)
        self.lstm3 = nn.LSTM(hidden_size * 2, 64, bidirectional=False, batch_first=True)
        self.fc1 = nn.Linear(64, 512)
        self.fc2 = nn.Linear(512, 256)
        self.fc3 = nn.Linear(256, 128)
        self.fc_sbp = nn.Linear(128, 1)
        self.fc_dbp = nn.Linear(128, 1)
    def forward(self, x):
        # 将输入传递给Conv1d层
        x = self.conv1d(x.permute(0, 2, 1).contiguous())
        x = self.relu(x)
        x = x.permute(0, 2, 1).contiguous()
        # 将输入传递给LSTM层
        x, _ = self.lstm1(x)
        x, _ = self.lstm2(x)
        x, _ = self.lstm3(x)
        # 只使用最后一个时间步的输出
        x = x[:, -1, :]
        # 将LSTM输出传递给全连接层
        x = self.relu(self.fc1(x))
        x = self.relu(self.fc2(x))
        x = self.relu(self.fc3(x))
        # 从两个Linear输出最终结果
        sbp = self.fc_sbp(x)
        dbp = self.fc_dbp(x)
        return sbp, dbp
 if __name__ == "__main__":
    # 创建模型实例
    model = LSTMModel()
    # 定义示例输入
    batch_size = 64
    seq_len = 1250
    input_size = 1
    input_data = torch.randn(batch_size, seq_len, input_size)
    # 将输入数据传递给模型
    sbp, dbp = model(input_data)
    print(sbp.shape, dbp.shape)  # 输出: torch.Size([64, 1]) torch.Size([64, 1])
--- a/BloodPressure/train.py
+++ b/BloodPressure/train.py
@ -0,0 +1,138 @@
 import os
 import torch
 import torch.nn as nn
 import torch.optim as optim
 from torch.utils.tensorboard import SummaryWriter
 from tqdm import tqdm
 from dataloader import BPDataLoader
 from models.lstm import LSTMModel
 # 定义模型
 model = LSTMModel()
 #定义训练参数
 max_epochs = 100
 batch_size= 1024
 warmup_epochs = 10
 lr = 0.0005
 # 定义损失函数和优化器
 criterion = nn.MSELoss()
 optimizer = optim.Adam(model.parameters(), lr=lr)
 # 定义学习率调度器
 scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=max_epochs - warmup_epochs, eta_min=1e-6)
 # 定义TensorBoard写入器
 writer = SummaryWriter()
 # 训练函数
 def train(model, dataloader, epoch, device,batch_size):
    model.train()
    running_loss = 0.0
    pbar = tqdm(dataloader, total=len(dataloader), desc=f"Epoch {epoch+1}/{max_epochs}")
    for i, (inputs, sbp_labels, dbp_labels) in enumerate(pbar):
        inputs = inputs.to(device)
        sbp_labels = sbp_labels.to(device)
        dbp_labels = dbp_labels.to(device)
        optimizer.zero_grad()
        sbp_outputs, dbp_outputs = model(inputs)
        sbp_outputs = sbp_outputs.squeeze(1)  # 将输出形状从(batch_size, 1)变为(batch_size,)
        dbp_outputs = dbp_outputs.squeeze(1)
        loss_sbp = criterion(sbp_outputs, sbp_labels)
        loss_dbp = criterion(dbp_outputs, dbp_labels)
        loss = loss_sbp + loss_dbp
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
        pbar.set_postfix(loss=running_loss / (i + 1))
    scheduler.step()
    writer.add_scalar("Loss/train", running_loss / len(dataloader)/ batch_size, epoch)
    return running_loss / len(dataloader) / batch_size
 # 评估函数
 def evaluate(model, dataloader, device,batch_size):
    model.eval()
    running_loss_sbp = 0.0
    running_loss_dbp = 0.0
    with torch.no_grad():
        for inputs, sbp_labels, dbp_labels in dataloader:
            inputs = inputs.to(device)
            sbp_labels = sbp_labels.to(device)
            dbp_labels = dbp_labels.to(device)
            sbp_outputs, dbp_outputs = model(inputs)
            sbp_outputs = sbp_outputs.squeeze(1)  # 将输出形状从(batch_size, 1)变为(batch_size,)
            dbp_outputs = dbp_outputs.squeeze(1)
            loss_sbp = criterion(sbp_outputs, sbp_labels)
            loss_dbp = criterion(dbp_outputs, dbp_labels)
            running_loss_sbp += loss_sbp.item()
            running_loss_dbp += loss_dbp.item()
    eval_loss_sbp = running_loss_sbp / len(dataloader) / batch_size
    eval_loss_dbp = running_loss_dbp / len(dataloader) / batch_size
    return eval_loss_sbp, eval_loss_dbp
 # 训练循环
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model = model.to(device)
 data_type='MIMIC_full'
 #判断权重保存目录是否存在，不存在则创建
 if not os.path.exists('weights'):
    os.makedirs('weights')
    #在其中创建data_type同名子文件夹
    os.makedirs(os.path.join('weights',data_type))
 else:
    #判断子文件夹是否存在
    if not os.path.exists(os.path.join('weights',data_type)):
        os.makedirs(os.path.join('weights',data_type))
 data_loader = BPDataLoader(data_dir='data', val_split=0.2, batch_size=batch_size,data_type=data_type)
 train_dataloader, val_dataloader = data_loader.get_dataloaders()
 best_val_loss_sbp = float('inf')
 best_val_loss_dbp = float('inf')
 for epoch in range(max_epochs):
    if epoch < warmup_epochs:
        warmup_lr = 1e-6 + (epoch + 1) * (5e-4 - 1e-6) / warmup_epochs
        for param_group in optimizer.param_groups:
            param_group['lr'] = warmup_lr
    train_loss = train(model, train_dataloader, epoch, device,batch_size)
    val_loss_sbp, val_loss_dbp = evaluate(model, val_dataloader, device,batch_size)
    writer.add_scalar("Loss/val_sbp", val_loss_sbp, epoch)
    writer.add_scalar("Loss/val_dbp", val_loss_dbp, epoch)
    print(f"Epoch {epoch+1}/{max_epochs}, Train Loss: {train_loss:.4f}, Val Loss SBP: {val_loss_sbp:.4f}, Val Loss DBP: {val_loss_dbp:.4f}")
    if val_loss_sbp < best_val_loss_sbp or val_loss_dbp < best_val_loss_dbp:
        best_val_loss_sbp = val_loss_sbp
        best_val_loss_dbp = val_loss_dbp
        torch.save(model.state_dict(), f'weights/{data_type}/best_{epoch}_lstm_model_sbp{val_loss_sbp:.4f}_dbp{val_loss_dbp:.4f}.pth')
    torch.save(model.state_dict(),
               f'weights/{data_type}/last.pth')
 writer.close()
--- a/BloodPressure/train2UKL.py
+++ b/BloodPressure/train2UKL.py
@ -0,0 +1,144 @@
 import os
 import torch
 import torch.nn as nn
 import torch.optim as optim
 from torch.utils.tensorboard import SummaryWriter
 from tqdm import tqdm
 from dataloader import BPDataLoader
 from models.lstm import LSTMModel
 # 定义模型
 model = LSTMModel()
 # 加载权重
 model.load_state_dict(torch.load(r'weights/MIMIC/best_27_lstm_model_sbp1.4700_dbp0.4493.pth'))
 # 定义训练参数
 max_epochs = 100
 batch_size= 1024
 warmup_epochs = 10
 lr = 0.0005
 # 定义损失函数和优化器
 criterion = nn.MSELoss()
 optimizer = optim.Adam(model.parameters(), lr=lr)
 # 定义学习率调度器
 scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=max_epochs - warmup_epochs, eta_min=1e-6)
 # 定义TensorBoard写入器
 writer = SummaryWriter()
 # 训练函数
 def train(model, dataloader, epoch, device, batch_size):
    model.train()
    running_loss = 0.0
    pbar = tqdm(dataloader, total=len(dataloader), desc=f"Epoch {epoch + 1}/{max_epochs}")
    for i, (inputs, sbp_labels, dbp_labels) in enumerate(pbar):
        inputs = inputs.to(device)
        sbp_labels = sbp_labels.to(device)
        dbp_labels = dbp_labels.to(device)
        optimizer.zero_grad()
        sbp_outputs, dbp_outputs = model(inputs)
        sbp_outputs = sbp_outputs.squeeze(1)  # 将输出形状从(batch_size, 1)变为(batch_size,)
        dbp_outputs = dbp_outputs.squeeze(1)
        loss_sbp = criterion(sbp_outputs, sbp_labels)
        loss_dbp = criterion(dbp_outputs, dbp_labels)
        loss = loss_sbp + loss_dbp
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
        pbar.set_postfix(loss=running_loss / (i + 1))
    scheduler.step()
    writer.add_scalar("Loss/train", running_loss / len(dataloader) / batch_size, epoch)
    return running_loss / len(dataloader) / batch_size
 # 评估函数
 def evaluate(model, dataloader, device, batch_size):
    model.eval()
    running_loss_sbp = 0.0
    running_loss_dbp = 0.0
    with torch.no_grad():
        for inputs, sbp_labels, dbp_labels in dataloader:
            inputs = inputs.to(device)
            sbp_labels = sbp_labels.to(device)
            dbp_labels = dbp_labels.to(device)
            sbp_outputs, dbp_outputs = model(inputs)
            sbp_outputs = sbp_outputs.squeeze(1)  # 将输出形状从(batch_size, 1)变为(batch_size,)
            dbp_outputs = dbp_outputs.squeeze(1)
            loss_sbp = criterion(sbp_outputs, sbp_labels)
            loss_dbp = criterion(dbp_outputs, dbp_labels)
            running_loss_sbp += loss_sbp.item()
            running_loss_dbp += loss_dbp.item()
    eval_loss_sbp = running_loss_sbp / len(dataloader) / batch_size
    eval_loss_dbp = running_loss_dbp / len(dataloader) / batch_size
    return eval_loss_sbp, eval_loss_dbp
 # 训练循环
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model = model.to(device)
 data_type = 'UKL'
 # 判断权重保存目录是否存在，不存在则创建
 if not os.path.exists('weights'):
    os.makedirs('weights')
    # 在其中创建data_type同名子文件夹
    os.makedirs(os.path.join('weights', data_type))
 else:
    # 判断子文件夹是否存在
    if not os.path.exists(os.path.join('weights', data_type)):
        os.makedirs(os.path.join('weights', data_type))
 data_loader = BPDataLoader(data_dir='data', val_split=0.2, batch_size=batch_size, data_type='UKL')
 train_dataloader, val_dataloader = data_loader.get_dataloaders()
 best_val_loss_sbp = float('inf')
 best_val_loss_dbp = float('inf')
 for epoch in range(max_epochs):
    if epoch < warmup_epochs:
        warmup_lr = 1e-6 + (epoch + 1) * (5e-4 - 1e-6) / warmup_epochs
        for param_group in optimizer.param_groups:
            param_group['lr'] = warmup_lr
    train_loss = train(model, train_dataloader, epoch, device, batch_size)
    val_loss_sbp, val_loss_dbp = evaluate(model, val_dataloader, device, batch_size)
    writer.add_scalar("Loss/val_sbp", val_loss_sbp, epoch)
    writer.add_scalar("Loss/val_dbp", val_loss_dbp, epoch)
    print(
        f"Epoch {epoch + 1}/{max_epochs}, Train Loss: {train_loss:.4f}, Val Loss SBP: {val_loss_sbp:.4f}, Val Loss DBP: {val_loss_dbp:.4f}")
    if val_loss_sbp < best_val_loss_sbp or val_loss_dbp < best_val_loss_dbp:
        best_val_loss_sbp = val_loss_sbp
        best_val_loss_dbp = val_loss_dbp
        torch.save(model.state_dict(),
                   f'weights/{data_type}/best_{epoch}_lstm_model_sbp{val_loss_sbp:.4f}_dbp{val_loss_dbp:.4f}.pth')
    torch.save(model.state_dict(),
               f'weights/{data_type}/last.pth')
 writer.close()
--- a/BloodPressure/train3X.py
+++ b/BloodPressure/train3X.py
@ -0,0 +1,144 @@
 import os
 import torch
 import torch.nn as nn
 import torch.optim as optim
 from torch.utils.tensorboard import SummaryWriter
 from tqdm import tqdm
 from dataloader import BPDataLoader
 from models.lstm import LSTMModel
 # 定义模型
 model = LSTMModel()
 # 加载权重
 model.load_state_dict(torch.load(r'weights/UKL/best_28_lstm_model_sbp0.3520_dbp0.2052.pth'))
 # 定义训练参数
 max_epochs = 100
 batch_size= 1024
 warmup_epochs = 10
 lr = 0.0005
 # 定义损失函数和优化器
 criterion = nn.MSELoss()
 optimizer = optim.Adam(model.parameters(), lr=lr)
 # 定义学习率调度器
 scheduler = optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=max_epochs - warmup_epochs, eta_min=1e-6)
 # 定义TensorBoard写入器
 writer = SummaryWriter()
 # 训练函数
 def train(model, dataloader, epoch, device, batch_size):
    model.train()
    running_loss = 0.0
    pbar = tqdm(dataloader, total=len(dataloader), desc=f"Epoch {epoch + 1}/{max_epochs}")
    for i, (inputs, sbp_labels, dbp_labels) in enumerate(pbar):
        inputs = inputs.to(device)
        sbp_labels = sbp_labels.to(device)
        dbp_labels = dbp_labels.to(device)
        optimizer.zero_grad()
        sbp_outputs, dbp_outputs = model(inputs)
        sbp_outputs = sbp_outputs.squeeze(1)  # 将输出形状从(batch_size, 1)变为(batch_size,)
        dbp_outputs = dbp_outputs.squeeze(1)
        loss_sbp = criterion(sbp_outputs, sbp_labels)
        loss_dbp = criterion(dbp_outputs, dbp_labels)
        loss = loss_sbp + loss_dbp
        loss.backward()
        optimizer.step()
        running_loss += loss.item()
        pbar.set_postfix(loss=running_loss / (i + 1))
    scheduler.step()
    writer.add_scalar("Loss/train", running_loss / len(dataloader) / batch_size, epoch)
    return running_loss / len(dataloader) / batch_size
 # 评估函数
 def evaluate(model, dataloader, device, batch_size):
    model.eval()
    running_loss_sbp = 0.0
    running_loss_dbp = 0.0
    with torch.no_grad():
        for inputs, sbp_labels, dbp_labels in dataloader:
            inputs = inputs.to(device)
            sbp_labels = sbp_labels.to(device)
            dbp_labels = dbp_labels.to(device)
            sbp_outputs, dbp_outputs = model(inputs)
            sbp_outputs = sbp_outputs.squeeze(1)  # 将输出形状从(batch_size, 1)变为(batch_size,)
            dbp_outputs = dbp_outputs.squeeze(1)
            loss_sbp = criterion(sbp_outputs, sbp_labels)
            loss_dbp = criterion(dbp_outputs, dbp_labels)
            running_loss_sbp += loss_sbp.item()
            running_loss_dbp += loss_dbp.item()
    eval_loss_sbp = running_loss_sbp / len(dataloader) / batch_size
    eval_loss_dbp = running_loss_dbp / len(dataloader) / batch_size
    return eval_loss_sbp, eval_loss_dbp
 # 训练循环
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 model = model.to(device)
 data_type = 'X'
 # 判断权重保存目录是否存在，不存在则创建
 if not os.path.exists('weights'):
    os.makedirs('weights')
    # 在其中创建data_type同名子文件夹
    os.makedirs(os.path.join('weights', data_type))
 else:
    # 判断子文件夹是否存在
    if not os.path.exists(os.path.join('weights', data_type)):
        os.makedirs(os.path.join('weights', data_type))
 data_loader = BPDataLoader(data_dir='data', val_split=0.2, batch_size=batch_size, data_type='X')
 train_dataloader, val_dataloader = data_loader.get_dataloaders()
 best_val_loss_sbp = float('inf')
 best_val_loss_dbp = float('inf')
 for epoch in range(max_epochs):
    if epoch < warmup_epochs:
        warmup_lr = 1e-6 + (epoch + 1) * (5e-4 - 1e-6) / warmup_epochs
        for param_group in optimizer.param_groups:
            param_group['lr'] = warmup_lr
    train_loss = train(model, train_dataloader, epoch, device, batch_size)
    val_loss_sbp, val_loss_dbp = evaluate(model, val_dataloader, device, batch_size)
    writer.add_scalar("Loss/val_sbp", val_loss_sbp, epoch)
    writer.add_scalar("Loss/val_dbp", val_loss_dbp, epoch)
    print(
        f"Epoch {epoch + 1}/{max_epochs}, Train Loss: {train_loss:.4f}, Val Loss SBP: {val_loss_sbp:.4f}, Val Loss DBP: {val_loss_dbp:.4f}")
    if val_loss_sbp < best_val_loss_sbp or val_loss_dbp < best_val_loss_dbp:
        best_val_loss_sbp = val_loss_sbp
        best_val_loss_dbp = val_loss_dbp
        torch.save(model.state_dict(),
                   f'weights/{data_type}/best_{epoch}_lstm_model_sbp{val_loss_sbp:.4f}_dbp{val_loss_dbp:.4f}.pth')
    torch.save(model.state_dict(),
               f'weights/{data_type}/last.pth')
 torch.cuda.is_available()
 writer.close()
--- a/BloodPressure/video.py
+++ b/BloodPressure/video.py
@ -0,0 +1,68 @@
 import cv2
 from BPApi import BPModel
 def main():
    cap = cv2.VideoCapture(0)  # 使用摄像头
    #设置视频宽高
    cap.set(3, 1920)
    cap.set(4, 1080)
    video_fs = cap.get(5)
    # print(video_fs)
    # 加载模型
    model = BPModel(model_path=r'final/best.pth', fps=video_fs)
    frames = []
    text = ["calculating..."]
    font = cv2.FONT_HERSHEY_SIMPLEX
    face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml')
    while True:
        ret, frame = cap.read()
        # 检测人脸
        gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
        faces = face_cascade.detectMultiScale(gray, 1.3, 5)
        if faces is not None and len(faces) > 0:
            # 将第一个人脸区域的图像截取
            x, y, w, h = faces[0]
            face = frame[y:y + h, x:x + w]
            frames.append(face)
            cv2.rectangle(frame, (x, y), (x + w, y + h), (255, 255, 0), 2)
            print(len(frames))
        if len(frames) == 250:
            sbp_outputs, dbp_outputs = model.predict(frames)
            print(sbp_outputs, dbp_outputs)
            text.clear()
            text.append('SBP: {:.2f} mmHg'.format(sbp_outputs))
            text.append('DBP: {:.2f} mmHg'.format(dbp_outputs))
            frames = []
            # 去除列表最前面的100个元素
            # frames=frames[50:]
        for i, t in enumerate(text):
            cv2.putText(frame, t, (10, 60 + i * 20), font, 0.6, (0, 255, 0), 2)
        cv2.imshow('Blood Pressure Detection', frame)
        key = cv2.waitKey(1) & 0xFF
        if key == ord('q'):
            break
    cap.release()
    cv2.destroyAllWindows()
 if __name__ == '__main__':
    main()
--- a/BloodPressure/weights/best.pth
+++ b/BloodPressure/weights/best.pth
--- a/Emotion/FacialEmotion/README.md
+++ b/Emotion/FacialEmotion/README.md
@ -0,0 +1,34 @@
 # 基于视觉的表情识别系统
 该项目是一个基于图像的表情识别系统。它使用MobileViT在人脸表情数据集上进行训练,然后可以从摄像头输入的视频中检测人脸,并为每个检测到的人脸预测表情类型，共支持8类表情。
 ## 核心文件
 - `class_indices.json`: 包含表情类型标签和对应数值编码的映射。
 - `predict_api.py`: 包含图像预测模型的加载、预处理和推理逻辑。
 - `video.py`: 视频处理和可视化的主要脚本。
 - `best.pth`: 训练的模型权重文件。
 ## 使用方法
 1. 确保已安装所需的Python库,包括`opencv-python`、`torch`、`torchvision`、`Pillow`和`dlib`。
 2. 运行`video.py`脚本。
 3. 脚本将打开默认摄像头,开始人脸检测和表情预测。
 4. 检测到的人脸周围会用矩形框标注,并显示预测的表情类型和置信度分数。
 5. 按`q`键退出程序。
 ## 模型介绍
 该项目使用MobileViT作为基础模型,对人脸表情图像数据集进行训练,以预测人脸图像的表情类型。模型输出包含8个值,分别对应各表情类型的概率。
 ### 数据集介绍
 该项目使用的表情图像数据集来自网络开源数据，数据集包含35887张标注了皮肤病类型的人体皮肤图像。
 ## 算法流程
 1. **人脸检测**: 使用Dlib库中的预训练人脸检测器在视频帧中检测人脸。
 2. **预处理**: 对检测到的人脸图像进行缩放、裁剪和标准化等预处理,以满足模型的输入要求。
 3. **推理**: 将预处理后的图像输入到预训练的Mobile-ViT模型中,获得不同表情类型的概率预测结果。
 4. **后处理**: 选取概率最高的类别作为最终预测结果。
 5. **可视化**: 在视频帧上绘制人脸矩形框,并显示预测的表情类型和置信度分数。
--- a/Emotion/FacialEmotion/best.pth
+++ b/Emotion/FacialEmotion/best.pth
--- a/Emotion/FacialEmotion/class_indices.json
+++ b/Emotion/FacialEmotion/class_indices.json
@ -0,0 +1,11 @@
 {
    "0": "生气",
    "1": "困惑",
    "2": "厌恶",
    "3": "恐惧",
    "4": "快乐",
    "5": "平静",
    "6": "伤心",
    "7": "害羞",
    "8": "惊喜"
 }
--- a/Emotion/FacialEmotion/logs/events.out.tfevents.1709709294.2355de4d4230.7369.0
+++ b/Emotion/FacialEmotion/logs/events.out.tfevents.1709709294.2355de4d4230.7369.0
--- a/Emotion/FacialEmotion/model.py
+++ b/Emotion/FacialEmotion/model.py
@ -0,0 +1,562 @@
 """
 original code from apple:
 https://github.com/apple/ml-cvnets/blob/main/cvnets/models/classification/mobilevit.py
 """
 from typing import Optional, Tuple, Union, Dict
 import math
 import torch
 import torch.nn as nn
 from torch import Tensor
 from torch.nn import functional as F
 from transformer import TransformerEncoder
 from model_config import get_config
 def make_divisible(
    v: Union[float, int],
    divisor: Optional[int] = 8,
    min_value: Optional[Union[float, int]] = None,
 ) -> Union[float, int]:
    """
    This function is taken from the original tf repo.
    It ensures that all layers have a channel number that is divisible by 8
    It can be seen here:
    https://github.com/tensorflow/models/blob/master/research/slim/nets/mobilenet/mobilenet.py
    :param v:
    :param divisor:
    :param min_value:
    :return:
    """
    if min_value is None:
        min_value = divisor
    new_v = max(min_value, int(v + divisor / 2) // divisor * divisor)
    # Make sure that round down does not go down by more than 10%.
    if new_v < 0.9 * v:
        new_v += divisor
    return new_v
 class ConvLayer(nn.Module):
    """
    Applies a 2D convolution over an input
    Args:
        in_channels (int): :math:`C_{in}` from an expected input of size :math:`(N, C_{in}, H_{in}, W_{in})`
        out_channels (int): :math:`C_{out}` from an expected output of size :math:`(N, C_{out}, H_{out}, W_{out})`
        kernel_size (Union[int, Tuple[int, int]]): Kernel size for convolution.
        stride (Union[int, Tuple[int, int]]): Stride for convolution. Default: 1
        groups (Optional[int]): Number of groups in convolution. Default: 1
        bias (Optional[bool]): Use bias. Default: ``False``
        use_norm (Optional[bool]): Use normalization layer after convolution. Default: ``True``
        use_act (Optional[bool]): Use activation layer after convolution (or convolution and normalization).
                                Default: ``True``
    Shape:
        - Input: :math:`(N, C_{in}, H_{in}, W_{in})`
        - Output: :math:`(N, C_{out}, H_{out}, W_{out})`
    .. note::
        For depth-wise convolution, `groups=C_{in}=C_{out}`.
    """
    def __init__(
        self,
        in_channels: int,
        out_channels: int,
        kernel_size: Union[int, Tuple[int, int]],
        stride: Optional[Union[int, Tuple[int, int]]] = 1,
        groups: Optional[int] = 1,
        bias: Optional[bool] = False,
        use_norm: Optional[bool] = True,
        use_act: Optional[bool] = True,
    ) -> None:
        super().__init__()
        if isinstance(kernel_size, int):
            kernel_size = (kernel_size, kernel_size)
        if isinstance(stride, int):
            stride = (stride, stride)
        assert isinstance(kernel_size, Tuple)
        assert isinstance(stride, Tuple)
        padding = (
            int((kernel_size[0] - 1) / 2),
            int((kernel_size[1] - 1) / 2),
        )
        block = nn.Sequential()
        conv_layer = nn.Conv2d(
            in_channels=in_channels,
            out_channels=out_channels,
            kernel_size=kernel_size,
            stride=stride,
            groups=groups,
            padding=padding,
            bias=bias
        )
        block.add_module(name="conv", module=conv_layer)
        if use_norm:
            norm_layer = nn.BatchNorm2d(num_features=out_channels, momentum=0.1)
            block.add_module(name="norm", module=norm_layer)
        if use_act:
            act_layer = nn.SiLU()
            block.add_module(name="act", module=act_layer)
        self.block = block
    def forward(self, x: Tensor) -> Tensor:
        return self.block(x)
 class InvertedResidual(nn.Module):
    """
    This class implements the inverted residual block, as described in `MobileNetv2 <https://arxiv.org/abs/1801.04381>`_ paper
    Args:
        in_channels (int): :math:`C_{in}` from an expected input of size :math:`(N, C_{in}, H_{in}, W_{in})`
        out_channels (int): :math:`C_{out}` from an expected output of size :math:`(N, C_{out}, H_{out}, W_{out)`
        stride (int): Use convolutions with a stride. Default: 1
        expand_ratio (Union[int, float]): Expand the input channels by this factor in depth-wise conv
        skip_connection (Optional[bool]): Use skip-connection. Default: True
    Shape:
        - Input: :math:`(N, C_{in}, H_{in}, W_{in})`
        - Output: :math:`(N, C_{out}, H_{out}, W_{out})`
    .. note::
        If `in_channels =! out_channels` and `stride > 1`, we set `skip_connection=False`
    """
    def __init__(
        self,
        in_channels: int,
        out_channels: int,
        stride: int,
        expand_ratio: Union[int, float],
        skip_connection: Optional[bool] = True,
    ) -> None:
        assert stride in [1, 2]
        hidden_dim = make_divisible(int(round(in_channels * expand_ratio)), 8)
        super().__init__()
        block = nn.Sequential()
        if expand_ratio != 1:
            block.add_module(
                name="exp_1x1",
                module=ConvLayer(
                    in_channels=in_channels,
                    out_channels=hidden_dim,
                    kernel_size=1
                ),
            )
        block.add_module(
            name="conv_3x3",
            module=ConvLayer(
                in_channels=hidden_dim,
                out_channels=hidden_dim,
                stride=stride,
                kernel_size=3,
                groups=hidden_dim
            ),
        )
        block.add_module(
            name="red_1x1",
            module=ConvLayer(
                in_channels=hidden_dim,
                out_channels=out_channels,
                kernel_size=1,
                use_act=False,
                use_norm=True,
            ),
        )
        self.block = block
        self.in_channels = in_channels
        self.out_channels = out_channels
        self.exp = expand_ratio
        self.stride = stride
        self.use_res_connect = (
            self.stride == 1 and in_channels == out_channels and skip_connection
        )
    def forward(self, x: Tensor, *args, **kwargs) -> Tensor:
        if self.use_res_connect:
            return x + self.block(x)
        else:
            return self.block(x)
 class MobileViTBlock(nn.Module):
    """
    This class defines the `MobileViT block <https://arxiv.org/abs/2110.02178?context=cs.LG>`_
    Args:
        opts: command line arguments
        in_channels (int): :math:`C_{in}` from an expected input of size :math:`(N, C_{in}, H, W)`
        transformer_dim (int): Input dimension to the transformer unit
        ffn_dim (int): Dimension of the FFN block
        n_transformer_blocks (int): Number of transformer blocks. Default: 2
        head_dim (int): Head dimension in the multi-head attention. Default: 32
        attn_dropout (float): Dropout in multi-head attention. Default: 0.0
        dropout (float): Dropout rate. Default: 0.0
        ffn_dropout (float): Dropout between FFN layers in transformer. Default: 0.0
        patch_h (int): Patch height for unfolding operation. Default: 8
        patch_w (int): Patch width for unfolding operation. Default: 8
        transformer_norm_layer (Optional[str]): Normalization layer in the transformer block. Default: layer_norm
        conv_ksize (int): Kernel size to learn local representations in MobileViT block. Default: 3
        no_fusion (Optional[bool]): Do not combine the input and output feature maps. Default: False
    """
    def __init__(
        self,
        in_channels: int,
        transformer_dim: int,
        ffn_dim: int,
        n_transformer_blocks: int = 2,
        head_dim: int = 32,
        attn_dropout: float = 0.0,
        dropout: float = 0.0,
        ffn_dropout: float = 0.0,
        patch_h: int = 8,
        patch_w: int = 8,
        conv_ksize: Optional[int] = 3,
        *args,
        **kwargs
    ) -> None:
        super().__init__()
        conv_3x3_in = ConvLayer(
            in_channels=in_channels,
            out_channels=in_channels,
            kernel_size=conv_ksize,
            stride=1
        )
        conv_1x1_in = ConvLayer(
            in_channels=in_channels,
            out_channels=transformer_dim,
            kernel_size=1,
            stride=1,
            use_norm=False,
            use_act=False
        )
        conv_1x1_out = ConvLayer(
            in_channels=transformer_dim,
            out_channels=in_channels,
            kernel_size=1,
            stride=1
        )
        conv_3x3_out = ConvLayer(
            in_channels=2 * in_channels,
            out_channels=in_channels,
            kernel_size=conv_ksize,
            stride=1
        )
        self.local_rep = nn.Sequential()
        self.local_rep.add_module(name="conv_3x3", module=conv_3x3_in)
        self.local_rep.add_module(name="conv_1x1", module=conv_1x1_in)
        assert transformer_dim % head_dim == 0
        num_heads = transformer_dim // head_dim
        global_rep = [
            TransformerEncoder(
                embed_dim=transformer_dim,
                ffn_latent_dim=ffn_dim,
                num_heads=num_heads,
                attn_dropout=attn_dropout,
                dropout=dropout,
                ffn_dropout=ffn_dropout
            )
            for _ in range(n_transformer_blocks)
        ]
        global_rep.append(nn.LayerNorm(transformer_dim))
        self.global_rep = nn.Sequential(*global_rep)
        self.conv_proj = conv_1x1_out
        self.fusion = conv_3x3_out
        self.patch_h = patch_h
        self.patch_w = patch_w
        self.patch_area = self.patch_w * self.patch_h
        self.cnn_in_dim = in_channels
        self.cnn_out_dim = transformer_dim
        self.n_heads = num_heads
        self.ffn_dim = ffn_dim
        self.dropout = dropout
        self.attn_dropout = attn_dropout
        self.ffn_dropout = ffn_dropout
        self.n_blocks = n_transformer_blocks
        self.conv_ksize = conv_ksize
    def unfolding(self, x: Tensor) -> Tuple[Tensor, Dict]:
        patch_w, patch_h = self.patch_w, self.patch_h
        patch_area = patch_w * patch_h
        batch_size, in_channels, orig_h, orig_w = x.shape
        new_h = int(math.ceil(orig_h / self.patch_h) * self.patch_h)
        new_w = int(math.ceil(orig_w / self.patch_w) * self.patch_w)
        interpolate = False
        if new_w != orig_w or new_h != orig_h:
            # Note: Padding can be done, but then it needs to be handled in attention function.
            x = F.interpolate(x, size=(new_h, new_w), mode="bilinear", align_corners=False)
            interpolate = True
        # number of patches along width and height
        num_patch_w = new_w // patch_w  # n_w
        num_patch_h = new_h // patch_h  # n_h
        num_patches = num_patch_h * num_patch_w  # N
        # [B, C, H, W] -> [B * C * n_h, p_h, n_w, p_w]
        x = x.reshape(batch_size * in_channels * num_patch_h, patch_h, num_patch_w, patch_w)
        # [B * C * n_h, p_h, n_w, p_w] -> [B * C * n_h, n_w, p_h, p_w]
        x = x.transpose(1, 2)
        # [B * C * n_h, n_w, p_h, p_w] -> [B, C, N, P] where P = p_h * p_w and N = n_h * n_w
        x = x.reshape(batch_size, in_channels, num_patches, patch_area)
        # [B, C, N, P] -> [B, P, N, C]
        x = x.transpose(1, 3)
        # [B, P, N, C] -> [BP, N, C]
        x = x.reshape(batch_size * patch_area, num_patches, -1)
        info_dict = {
            "orig_size": (orig_h, orig_w),
            "batch_size": batch_size,
            "interpolate": interpolate,
            "total_patches": num_patches,
            "num_patches_w": num_patch_w,
            "num_patches_h": num_patch_h,
        }
        return x, info_dict
    def folding(self, x: Tensor, info_dict: Dict) -> Tensor:
        n_dim = x.dim()
        assert n_dim == 3, "Tensor should be of shape BPxNxC. Got: {}".format(
            x.shape
        )
        # [BP, N, C] --> [B, P, N, C]
        x = x.contiguous().view(
            info_dict["batch_size"], self.patch_area, info_dict["total_patches"], -1
        )
        batch_size, pixels, num_patches, channels = x.size()
        num_patch_h = info_dict["num_patches_h"]
        num_patch_w = info_dict["num_patches_w"]
        # [B, P, N, C] -> [B, C, N, P]
        x = x.transpose(1, 3)
        # [B, C, N, P] -> [B*C*n_h, n_w, p_h, p_w]
        x = x.reshape(batch_size * channels * num_patch_h, num_patch_w, self.patch_h, self.patch_w)
        # [B*C*n_h, n_w, p_h, p_w] -> [B*C*n_h, p_h, n_w, p_w]
        x = x.transpose(1, 2)
        # [B*C*n_h, p_h, n_w, p_w] -> [B, C, H, W]
        x = x.reshape(batch_size, channels, num_patch_h * self.patch_h, num_patch_w * self.patch_w)
        if info_dict["interpolate"]:
            x = F.interpolate(
                x,
                size=info_dict["orig_size"],
                mode="bilinear",
                align_corners=False,
            )
        return x
    def forward(self, x: Tensor) -> Tensor:
        res = x
        fm = self.local_rep(x)
        # convert feature map to patches
        patches, info_dict = self.unfolding(fm)
        # learn global representations
        for transformer_layer in self.global_rep:
            patches = transformer_layer(patches)
        # [B x Patch x Patches x C] -> [B x C x Patches x Patch]
        fm = self.folding(x=patches, info_dict=info_dict)
        fm = self.conv_proj(fm)
        fm = self.fusion(torch.cat((res, fm), dim=1))
        return fm
 class MobileViT(nn.Module):
    """
    This class implements the `MobileViT architecture <https://arxiv.org/abs/2110.02178?context=cs.LG>`_
    """
    def __init__(self, model_cfg: Dict, num_classes: int = 1000):
        super().__init__()
        image_channels = 3
        out_channels = 16
        self.conv_1 = ConvLayer(
            in_channels=image_channels,
            out_channels=out_channels,
            kernel_size=3,
            stride=2
        )
        self.layer_1, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer1"])
        self.layer_2, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer2"])
        self.layer_3, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer3"])
        self.layer_4, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer4"])
        self.layer_5, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer5"])
        exp_channels = min(model_cfg["last_layer_exp_factor"] * out_channels, 960)
        self.conv_1x1_exp = ConvLayer(
            in_channels=out_channels,
            out_channels=exp_channels,
            kernel_size=1
        )
        self.classifier = nn.Sequential()
        self.classifier.add_module(name="global_pool", module=nn.AdaptiveAvgPool2d(1))
        self.classifier.add_module(name="flatten", module=nn.Flatten())
        if 0.0 < model_cfg["cls_dropout"] < 1.0:
            self.classifier.add_module(name="dropout", module=nn.Dropout(p=model_cfg["cls_dropout"]))
        self.classifier.add_module(name="fc", module=nn.Linear(in_features=exp_channels, out_features=num_classes))
        # weight init
        self.apply(self.init_parameters)
    def _make_layer(self, input_channel, cfg: Dict) -> Tuple[nn.Sequential, int]:
        block_type = cfg.get("block_type", "mobilevit")
        if block_type.lower() == "mobilevit":
            return self._make_mit_layer(input_channel=input_channel, cfg=cfg)
        else:
            return self._make_mobilenet_layer(input_channel=input_channel, cfg=cfg)
    @staticmethod
    def _make_mobilenet_layer(input_channel: int, cfg: Dict) -> Tuple[nn.Sequential, int]:
        output_channels = cfg.get("out_channels")
        num_blocks = cfg.get("num_blocks", 2)
        expand_ratio = cfg.get("expand_ratio", 4)
        block = []
        for i in range(num_blocks):
            stride = cfg.get("stride", 1) if i == 0 else 1
            layer = InvertedResidual(
                in_channels=input_channel,
                out_channels=output_channels,
                stride=stride,
                expand_ratio=expand_ratio
            )
            block.append(layer)
            input_channel = output_channels
        return nn.Sequential(*block), input_channel
    @staticmethod
    def _make_mit_layer(input_channel: int, cfg: Dict) -> [nn.Sequential, int]:
        stride = cfg.get("stride", 1)
        block = []
        if stride == 2:
            layer = InvertedResidual(
                in_channels=input_channel,
                out_channels=cfg.get("out_channels"),
                stride=stride,
                expand_ratio=cfg.get("mv_expand_ratio", 4)
            )
            block.append(layer)
            input_channel = cfg.get("out_channels")
        transformer_dim = cfg["transformer_channels"]
        ffn_dim = cfg.get("ffn_dim")
        num_heads = cfg.get("num_heads", 4)
        head_dim = transformer_dim // num_heads
        if transformer_dim % head_dim != 0:
            raise ValueError("Transformer input dimension should be divisible by head dimension. "
                             "Got {} and {}.".format(transformer_dim, head_dim))
        block.append(MobileViTBlock(
            in_channels=input_channel,
            transformer_dim=transformer_dim,
            ffn_dim=ffn_dim,
            n_transformer_blocks=cfg.get("transformer_blocks", 1),
            patch_h=cfg.get("patch_h", 2),
            patch_w=cfg.get("patch_w", 2),
            dropout=cfg.get("dropout", 0.1),
            ffn_dropout=cfg.get("ffn_dropout", 0.0),
            attn_dropout=cfg.get("attn_dropout", 0.1),
            head_dim=head_dim,
            conv_ksize=3
        ))
        return nn.Sequential(*block), input_channel
    @staticmethod
    def init_parameters(m):
        if isinstance(m, nn.Conv2d):
            if m.weight is not None:
                nn.init.kaiming_normal_(m.weight, mode="fan_out")
            if m.bias is not None:
                nn.init.zeros_(m.bias)
        elif isinstance(m, (nn.LayerNorm, nn.BatchNorm2d)):
            if m.weight is not None:
                nn.init.ones_(m.weight)
            if m.bias is not None:
                nn.init.zeros_(m.bias)
        elif isinstance(m, (nn.Linear,)):
            if m.weight is not None:
                nn.init.trunc_normal_(m.weight, mean=0.0, std=0.02)
            if m.bias is not None:
                nn.init.zeros_(m.bias)
        else:
            pass
    def forward(self, x: Tensor) -> Tensor:
        x = self.conv_1(x)
        x = self.layer_1(x)
        x = self.layer_2(x)
        x = self.layer_3(x)
        x = self.layer_4(x)
        x = self.layer_5(x)
        x = self.conv_1x1_exp(x)
        x = self.classifier(x)
        return x
 def mobile_vit_xx_small(num_classes: int = 1000):
    # pretrain weight link
    # https://docs-assets.developer.apple.com/ml-research/models/cvnets/classification/mobilevit_xxs.pt
    config = get_config("xx_small")
    m = MobileViT(config, num_classes=num_classes)
    return m
 def mobile_vit_x_small(num_classes: int = 1000):
    # pretrain weight link
    # https://docs-assets.developer.apple.com/ml-research/models/cvnets/classification/mobilevit_xs.pt
    config = get_config("x_small")
    m = MobileViT(config, num_classes=num_classes)
    return m
 def mobile_vit_small(num_classes: int = 1000):
    # pretrain weight link
    # https://docs-assets.developer.apple.com/ml-research/models/cvnets/classification/mobilevit_s.pt
    config = get_config("small")
    m = MobileViT(config, num_classes=num_classes)
    return m
--- a/Emotion/FacialEmotion/model_config.py
+++ b/Emotion/FacialEmotion/model_config.py
@ -0,0 +1,176 @@
 def get_config(mode: str = "xxs") -> dict:
    if mode == "xx_small":
        mv2_exp_mult = 2
        config = {
            "layer1": {
                "out_channels": 16,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 1,
                "stride": 1,
                "block_type": "mv2",
            },
            "layer2": {
                "out_channels": 24,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 3,
                "stride": 2,
                "block_type": "mv2",
            },
            "layer3": {  # 28x28
                "out_channels": 48,
                "transformer_channels": 64,
                "ffn_dim": 128,
                "transformer_blocks": 2,
                "patch_h": 2,  # 8,
                "patch_w": 2,  # 8,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer4": {  # 14x14
                "out_channels": 64,
                "transformer_channels": 80,
                "ffn_dim": 160,
                "transformer_blocks": 4,
                "patch_h": 2,  # 4,
                "patch_w": 2,  # 4,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer5": {  # 7x7
                "out_channels": 80,
                "transformer_channels": 96,
                "ffn_dim": 192,
                "transformer_blocks": 3,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "last_layer_exp_factor": 4,
            "cls_dropout": 0.1
        }
    elif mode == "x_small":
        mv2_exp_mult = 4
        config = {
            "layer1": {
                "out_channels": 32,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 1,
                "stride": 1,
                "block_type": "mv2",
            },
            "layer2": {
                "out_channels": 48,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 3,
                "stride": 2,
                "block_type": "mv2",
            },
            "layer3": {  # 28x28
                "out_channels": 64,
                "transformer_channels": 96,
                "ffn_dim": 192,
                "transformer_blocks": 2,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer4": {  # 14x14
                "out_channels": 80,
                "transformer_channels": 120,
                "ffn_dim": 240,
                "transformer_blocks": 4,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer5": {  # 7x7
                "out_channels": 96,
                "transformer_channels": 144,
                "ffn_dim": 288,
                "transformer_blocks": 3,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "last_layer_exp_factor": 4,
            "cls_dropout": 0.1
        }
    elif mode == "small":
        mv2_exp_mult = 4
        config = {
            "layer1": {
                "out_channels": 32,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 1,
                "stride": 1,
                "block_type": "mv2",
            },
            "layer2": {
                "out_channels": 64,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 3,
                "stride": 2,
                "block_type": "mv2",
            },
            "layer3": {  # 28x28
                "out_channels": 96,
                "transformer_channels": 144,
                "ffn_dim": 288,
                "transformer_blocks": 2,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer4": {  # 14x14
                "out_channels": 128,
                "transformer_channels": 192,
                "ffn_dim": 384,
                "transformer_blocks": 4,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer5": {  # 7x7
                "out_channels": 160,
                "transformer_channels": 240,
                "ffn_dim": 480,
                "transformer_blocks": 3,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "last_layer_exp_factor": 4,
            "cls_dropout": 0.1
        }
    else:
        raise NotImplementedError
    for k in ["layer1", "layer2", "layer3", "layer4", "layer5"]:
        config[k].update({"dropout": 0.1, "ffn_dropout": 0.0, "attn_dropout": 0.0})
    return config
--- a/Emotion/FacialEmotion/my_dataset.py
+++ b/Emotion/FacialEmotion/my_dataset.py
@ -0,0 +1,38 @@
 from PIL import Image
 import torch
 from torch.utils.data import Dataset
 class MyDataSet(Dataset):
    """自定义数据集"""
    def __init__(self, images_path: list, images_class: list, transform=None):
        self.images_path = images_path
        self.images_class = images_class
        self.transform = transform
    def __len__(self):
        return len(self.images_path)
    def __getitem__(self, item):
        img = Image.open(self.images_path[item])
        # RGB为彩色图片，L为灰度图片
        if img.mode != 'RGB':
            # img = img.convert('RGB')
            raise ValueError("image: {} isn't RGB mode.".format(self.images_path[item]))
        label = self.images_class[item]
        if self.transform is not None:
            img = self.transform(img)
        return img, label
    @staticmethod
    def collate_fn(batch):
        # 官方实现的default_collate可以参考
        # https://github.com/pytorch/pytorch/blob/67b7e751e6b5931a9f45274653f4f653a4e6cdf6/torch/utils/data/_utils/collate.py
        images, labels = tuple(zip(*batch))
        images = torch.stack(images, dim=0)
        labels = torch.as_tensor(labels)
        return images, labels
--- a/Emotion/FacialEmotion/predict.py
+++ b/Emotion/FacialEmotion/predict.py
@ -0,0 +1,61 @@
 import os
 import json
 import torch
 from PIL import Image
 from torchvision import transforms
 import matplotlib.pyplot as plt
 from model import mobile_vit_small as create_model
 def main():
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    img_size = 224
    data_transform = transforms.Compose(
        [transforms.Resize(int(img_size * 1.14)),
         transforms.CenterCrop(img_size),
         transforms.ToTensor(),
         transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])
    # load image
    img_path = "../tulip.jpg"
    assert os.path.exists(img_path), "file: '{}' dose not exist.".format(img_path)
    img = Image.open(img_path)
    plt.imshow(img)
    # [N, C, H, W]
    img = data_transform(img)
    # expand batch dimension
    img = torch.unsqueeze(img, dim=0)
    # read class_indict
    json_path = './class_indices.json'
    assert os.path.exists(json_path), "file: '{}' dose not exist.".format(json_path)
    with open(json_path, "r") as f:
        class_indict = json.load(f)
    # create model
    model = create_model(num_classes=5).to(device)
    # load model weights
    model_weight_path = "./weights/best_model.pth"
    model.load_state_dict(torch.load(model_weight_path, map_location=device))
    model.eval()
    with torch.no_grad():
        # predict class
        output = torch.squeeze(model(img.to(device))).cpu()
        predict = torch.softmax(output, dim=0)
        predict_cla = torch.argmax(predict).numpy()
    print_res = "class: {}   prob: {:.3}".format(class_indict[str(predict_cla)],
                                                 predict[predict_cla].numpy())
    plt.title(print_res)
    for i in range(len(predict)):
        print("class: {:10}   prob: {:.3}".format(class_indict[str(i)],
                                                  predict[i].numpy()))
    plt.show()
 if __name__ == '__main__':
    main()
--- a/Emotion/FacialEmotion/predict_api.py
+++ b/Emotion/FacialEmotion/predict_api.py
@ -0,0 +1,68 @@
 import os
 import json
 import uuid
 import cv2
 import torch
 from PIL import Image
 from torchvision import transforms
 from model import mobile_vit_small as create_model
 class ImagePredictor:
    def __init__(self, model_path, class_indices_path, img_size=224):
        self.device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
        self.img_size = img_size
        self.data_transform = transforms.Compose([
            transforms.Resize(int(self.img_size * 1.14)),
            transforms.CenterCrop(self.img_size),
            transforms.ToTensor(),
            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
        # Load class indices
        with open(class_indices_path, "r",encoding="utf-8") as f:
            self.class_indict = json.load(f)
        # Load model
        self.model = self.load_model(model_path)
    def load_model(self, model_path):
        model = create_model(num_classes=9).to(self.device)
        model.load_state_dict(torch.load(model_path, map_location=self.device))
        model.eval()
        return model
    def predict(self, cv2_image):
        # Convert cv2 image to PIL image
        image = cv2.cvtColor(cv2_image, cv2.COLOR_BGR2RGB)
        image = Image.fromarray(image)
        img = self.data_transform(image)
        img = torch.unsqueeze(img, dim=0)
        # Predict class
        with torch.no_grad():
            output = torch.squeeze(self.model(img.to(self.device))).cpu()
            probabilities = torch.softmax(output, dim=0)
            top_prob, top_catid = torch.topk(probabilities, 1)
        # Predict class
        with torch.no_grad():
            output = torch.squeeze(self.model(img.to(self.device))).cpu()
            probabilities = torch.softmax(output, dim=0)
            top_prob, top_catid = torch.topk(probabilities, 1)
        # Top 1 result
        result = {
            "name": self.class_indict[str(top_catid[0].item())],
            "score": top_prob[0].item(),
            "label": top_catid[0].item()
        }
        # Results dictionary
        results = {"result": result, "log_id": str(uuid.uuid1())}
        return results
 # Example usage:
 # predictor = ImagePredictor(model_path="./weights/best_model.pth", class_indices_path="./class_indices.json")
 # result = predictor.predict("../tulip.jpg")
 # print(result)
--- a/Emotion/FacialEmotion/train.py
+++ b/Emotion/FacialEmotion/train.py
@ -0,0 +1,135 @@
 import os
 import argparse
 import torch
 import torch.optim as optim
 from torch.utils.tensorboard import SummaryWriter
 from torchvision import transforms
 from my_dataset import MyDataSet
 from model import mobile_vit_xx_small as create_model
 from utils import read_split_data, train_one_epoch, evaluate
 def main(args):
    device = torch.device(args.device if torch.cuda.is_available() else "cpu")
    if os.path.exists("./weights") is False:
        os.makedirs("./weights")
    tb_writer = SummaryWriter()
    train_images_path, train_images_label, val_images_path, val_images_label = read_split_data(args.data_path)
    img_size = 224
    data_transform = {
        "train": transforms.Compose([transforms.RandomResizedCrop(img_size),
                                     transforms.RandomHorizontalFlip(),
                                     transforms.ToTensor(),
                                     transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])]),
        "val": transforms.Compose([transforms.Resize(int(img_size * 1.143)),
                                   transforms.CenterCrop(img_size),
                                   transforms.ToTensor(),
                                   transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])}
    # 实例化训练数据集
    train_dataset = MyDataSet(images_path=train_images_path,
                              images_class=train_images_label,
                              transform=data_transform["train"])
    # 实例化验证数据集
    val_dataset = MyDataSet(images_path=val_images_path,
                            images_class=val_images_label,
                            transform=data_transform["val"])
    batch_size = args.batch_size
    nw = min([os.cpu_count(), batch_size if batch_size > 1 else 0, 8])  # number of workers
    print('Using {} dataloader workers every process'.format(nw))
    train_loader = torch.utils.data.DataLoader(train_dataset,
                                               batch_size=batch_size,
                                               shuffle=True,
                                               pin_memory=True,
                                               num_workers=nw,
                                               collate_fn=train_dataset.collate_fn)
    val_loader = torch.utils.data.DataLoader(val_dataset,
                                             batch_size=batch_size,
                                             shuffle=False,
                                             pin_memory=True,
                                             num_workers=nw,
                                             collate_fn=val_dataset.collate_fn)
    model = create_model(num_classes=args.num_classes).to(device)
    if args.weights != "":
        assert os.path.exists(args.weights), "weights file: '{}' not exist.".format(args.weights)
        weights_dict = torch.load(args.weights, map_location=device)
        weights_dict = weights_dict["model"] if "model" in weights_dict else weights_dict
        # 删除有关分类类别的权重
        for k in list(weights_dict.keys()):
            if "classifier" in k:
                del weights_dict[k]
        print(model.load_state_dict(weights_dict, strict=False))
    if args.freeze_layers:
        for name, para in model.named_parameters():
            # 除head外，其他权重全部冻结
            if "classifier" not in name:
                para.requires_grad_(False)
            else:
                print("training {}".format(name))
    pg = [p for p in model.parameters() if p.requires_grad]
    optimizer = optim.AdamW(pg, lr=args.lr, weight_decay=1E-2)
    best_acc = 0.
    for epoch in range(args.epochs):
        # train
        train_loss, train_acc = train_one_epoch(model=model,
                                                optimizer=optimizer,
                                                data_loader=train_loader,
                                                device=device,
                                                epoch=epoch)
        # validate
        val_loss, val_acc = evaluate(model=model,
                                     data_loader=val_loader,
                                     device=device,
                                     epoch=epoch)
        tags = ["train_loss", "train_acc", "val_loss", "val_acc", "learning_rate"]
        tb_writer.add_scalar(tags[0], train_loss, epoch)
        tb_writer.add_scalar(tags[1], train_acc, epoch)
        tb_writer.add_scalar(tags[2], val_loss, epoch)
        tb_writer.add_scalar(tags[3], val_acc, epoch)
        tb_writer.add_scalar(tags[4], optimizer.param_groups[0]["lr"], epoch)
        if val_acc > best_acc:
            best_acc = val_acc
            torch.save(model.state_dict(), "./weights/best_model.pth")
        torch.save(model.state_dict(), "./weights/latest_model.pth")
 if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('--num_classes', type=int, default=5)
    parser.add_argument('--epochs', type=int, default=10)
    parser.add_argument('--batch-size', type=int, default=8)
    parser.add_argument('--lr', type=float, default=0.0002)
    # 数据集所在根目录
    # https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz
    parser.add_argument('--data-path', type=str,
                        default="/data/flower_photos")
    # 预训练权重路径，如果不想载入就设置为空字符
    parser.add_argument('--weights', type=str, default='./mobilevit_xxs.pt',
                        help='initial weights path')
    # 是否冻结权重
    parser.add_argument('--freeze-layers', type=bool, default=False)
    parser.add_argument('--device', default='cuda:0', help='device id (i.e. 0 or 0,1 or cpu)')
    opt = parser.parse_args()
    main(opt)
--- a/Emotion/FacialEmotion/transformer.py
+++ b/Emotion/FacialEmotion/transformer.py
@ -0,0 +1,155 @@
 from typing import Optional
 import torch
 import torch.nn as nn
 from torch import Tensor
 class MultiHeadAttention(nn.Module):
    """
    This layer applies a multi-head self- or cross-attention as described in
    `Attention is all you need <https://arxiv.org/abs/1706.03762>`_ paper
    Args:
        embed_dim (int): :math:`C_{in}` from an expected input of size :math:`(N, P, C_{in})`
        num_heads (int): Number of heads in multi-head attention
        attn_dropout (float): Attention dropout. Default: 0.0
        bias (bool): Use bias or not. Default: ``True``
    Shape:
        - Input: :math:`(N, P, C_{in})` where :math:`N` is batch size, :math:`P` is number of patches,
        and :math:`C_{in}` is input embedding dim
        - Output: same shape as the input
    """
    def __init__(
        self,
        embed_dim: int,
        num_heads: int,
        attn_dropout: float = 0.0,
        bias: bool = True,
        *args,
        **kwargs
    ) -> None:
        super().__init__()
        if embed_dim % num_heads != 0:
            raise ValueError(
                "Embedding dim must be divisible by number of heads in {}. Got: embed_dim={} and num_heads={}".format(
                    self.__class__.__name__, embed_dim, num_heads
                )
            )
        self.qkv_proj = nn.Linear(in_features=embed_dim, out_features=3 * embed_dim, bias=bias)
        self.attn_dropout = nn.Dropout(p=attn_dropout)
        self.out_proj = nn.Linear(in_features=embed_dim, out_features=embed_dim, bias=bias)
        self.head_dim = embed_dim // num_heads
        self.scaling = self.head_dim ** -0.5
        self.softmax = nn.Softmax(dim=-1)
        self.num_heads = num_heads
        self.embed_dim = embed_dim
    def forward(self, x_q: Tensor) -> Tensor:
        # [N, P, C]
        b_sz, n_patches, in_channels = x_q.shape
        # self-attention
        # [N, P, C] -> [N, P, 3C] -> [N, P, 3, h, c] where C = hc
        qkv = self.qkv_proj(x_q).reshape(b_sz, n_patches, 3, self.num_heads, -1)
        # [N, P, 3, h, c] -> [N, h, 3, P, C]
        qkv = qkv.transpose(1, 3).contiguous()
        # [N, h, 3, P, C] -> [N, h, P, C] x 3
        query, key, value = qkv[:, :, 0], qkv[:, :, 1], qkv[:, :, 2]
        query = query * self.scaling
        # [N h, P, c] -> [N, h, c, P]
        key = key.transpose(-1, -2)
        # QK^T
        # [N, h, P, c] x [N, h, c, P] -> [N, h, P, P]
        attn = torch.matmul(query, key)
        attn = self.softmax(attn)
        attn = self.attn_dropout(attn)
        # weighted sum
        # [N, h, P, P] x [N, h, P, c] -> [N, h, P, c]
        out = torch.matmul(attn, value)
        # [N, h, P, c] -> [N, P, h, c] -> [N, P, C]
        out = out.transpose(1, 2).reshape(b_sz, n_patches, -1)
        out = self.out_proj(out)
        return out
 class TransformerEncoder(nn.Module):
    """
    This class defines the pre-norm `Transformer encoder <https://arxiv.org/abs/1706.03762>`_
    Args:
        embed_dim (int): :math:`C_{in}` from an expected input of size :math:`(N, P, C_{in})`
        ffn_latent_dim (int): Inner dimension of the FFN
        num_heads (int) : Number of heads in multi-head attention. Default: 8
        attn_dropout (float): Dropout rate for attention in multi-head attention. Default: 0.0
        dropout (float): Dropout rate. Default: 0.0
        ffn_dropout (float): Dropout between FFN layers. Default: 0.0
    Shape:
        - Input: :math:`(N, P, C_{in})` where :math:`N` is batch size, :math:`P` is number of patches,
        and :math:`C_{in}` is input embedding dim
        - Output: same shape as the input
    """
    def __init__(
        self,
        embed_dim: int,
        ffn_latent_dim: int,
        num_heads: Optional[int] = 8,
        attn_dropout: Optional[float] = 0.0,
        dropout: Optional[float] = 0.0,
        ffn_dropout: Optional[float] = 0.0,
        *args,
        **kwargs
    ) -> None:
        super().__init__()
        attn_unit = MultiHeadAttention(
            embed_dim,
            num_heads,
            attn_dropout=attn_dropout,
            bias=True
        )
        self.pre_norm_mha = nn.Sequential(
            nn.LayerNorm(embed_dim),
            attn_unit,
            nn.Dropout(p=dropout)
        )
        self.pre_norm_ffn = nn.Sequential(
            nn.LayerNorm(embed_dim),
            nn.Linear(in_features=embed_dim, out_features=ffn_latent_dim, bias=True),
            nn.SiLU(),
            nn.Dropout(p=ffn_dropout),
            nn.Linear(in_features=ffn_latent_dim, out_features=embed_dim, bias=True),
            nn.Dropout(p=dropout)
        )
        self.embed_dim = embed_dim
        self.ffn_dim = ffn_latent_dim
        self.ffn_dropout = ffn_dropout
        self.std_dropout = dropout
    def forward(self, x: Tensor) -> Tensor:
        # multi-head attention
        res = x
        x = self.pre_norm_mha(x)
        x = x + res
        # feed forward network
        x = x + self.pre_norm_ffn(x)
        return x
--- a/Emotion/FacialEmotion/unfold_test.py
+++ b/Emotion/FacialEmotion/unfold_test.py
@ -0,0 +1,56 @@
 import time
 import torch
 batch_size = 8
 in_channels = 32
 patch_h = 2
 patch_w = 2
 num_patch_h = 16
 num_patch_w = 16
 num_patches = num_patch_h * num_patch_w
 patch_area = patch_h * patch_w
 def official(x: torch.Tensor):
    # [B, C, H, W] -> [B * C * n_h, p_h, n_w, p_w]
    x = x.reshape(batch_size * in_channels * num_patch_h, patch_h, num_patch_w, patch_w)
    # [B * C * n_h, p_h, n_w, p_w] -> [B * C * n_h, n_w, p_h, p_w]
    x = x.transpose(1, 2)
    # [B * C * n_h, n_w, p_h, p_w] -> [B, C, N, P] where P = p_h * p_w and N = n_h * n_w
    x = x.reshape(batch_size, in_channels, num_patches, patch_area)
    # [B, C, N, P] -> [B, P, N, C]
    x = x.transpose(1, 3)
    # [B, P, N, C] -> [BP, N, C]
    x = x.reshape(batch_size * patch_area, num_patches, -1)
    return x
 def my_self(x: torch.Tensor):
    # [B, C, H, W] -> [B, C, n_h, p_h, n_w, p_w]
    x = x.reshape(batch_size, in_channels, num_patch_h, patch_h, num_patch_w, patch_w)
    # [B, C, n_h, p_h, n_w, p_w] -> [B, C, n_h, n_w, p_h, p_w]
    x = x.transpose(3, 4)
    # [B, C, n_h, n_w, p_h, p_w] -> [B, C, N, P] where P = p_h * p_w and N = n_h * n_w
    x = x.reshape(batch_size, in_channels, num_patches, patch_area)
    # [B, C, N, P] -> [B, P, N, C]
    x = x.transpose(1, 3)
    # [B, P, N, C] -> [BP, N, C]
    x = x.reshape(batch_size * patch_area, num_patches, -1)
    return x
 if __name__ == '__main__':
    t = torch.randn(batch_size, in_channels, num_patch_h * patch_h, num_patch_w * patch_w)
    print(torch.equal(official(t), my_self(t)))
    t1 = time.time()
    for _ in range(1000):
        official(t)
    print(f"official time: {time.time() - t1}")
    t1 = time.time()
    for _ in range(1000):
        my_self(t)
    print(f"self time: {time.time() - t1}")
--- a/Emotion/FacialEmotion/utils.py
+++ b/Emotion/FacialEmotion/utils.py
@ -0,0 +1,179 @@
 import os
 import sys
 import json
 import pickle
 import random
 import torch
 from tqdm import tqdm
 import matplotlib.pyplot as plt
 def read_split_data(root: str, val_rate: float = 0.2):
    random.seed(0)  # 保证随机结果可复现
    assert os.path.exists(root), "dataset root: {} does not exist.".format(root)
    # 遍历文件夹，一个文件夹对应一个类别
    flower_class = [cla for cla in os.listdir(root) if os.path.isdir(os.path.join(root, cla))]
    # 排序，保证各平台顺序一致
    flower_class.sort()
    # 生成类别名称以及对应的数字索引
    class_indices = dict((k, v) for v, k in enumerate(flower_class))
    json_str = json.dumps(dict((val, key) for key, val in class_indices.items()), indent=4)
    with open('class_indices.json', 'w') as json_file:
        json_file.write(json_str)
    train_images_path = []  # 存储训练集的所有图片路径
    train_images_label = []  # 存储训练集图片对应索引信息
    val_images_path = []  # 存储验证集的所有图片路径
    val_images_label = []  # 存储验证集图片对应索引信息
    every_class_num = []  # 存储每个类别的样本总数
    supported = [".jpg", ".JPG", ".png", ".PNG"]  # 支持的文件后缀类型
    # 遍历每个文件夹下的文件
    for cla in flower_class:
        cla_path = os.path.join(root, cla)
        # 遍历获取supported支持的所有文件路径
        images = [os.path.join(root, cla, i) for i in os.listdir(cla_path)
                  if os.path.splitext(i)[-1] in supported]
        # 排序，保证各平台顺序一致
        images.sort()
        # 获取该类别对应的索引
        image_class = class_indices[cla]
        # 记录该类别的样本数量
        every_class_num.append(len(images))
        # 按比例随机采样验证样本
        val_path = random.sample(images, k=int(len(images) * val_rate))
        for img_path in images:
            if img_path in val_path:  # 如果该路径在采样的验证集样本中则存入验证集
                val_images_path.append(img_path)
                val_images_label.append(image_class)
            else:  # 否则存入训练集
                train_images_path.append(img_path)
                train_images_label.append(image_class)
    print("{} images were found in the dataset.".format(sum(every_class_num)))
    print("{} images for training.".format(len(train_images_path)))
    print("{} images for validation.".format(len(val_images_path)))
    assert len(train_images_path) > 0, "number of training images must greater than 0."
    assert len(val_images_path) > 0, "number of validation images must greater than 0."
    plot_image = False
    if plot_image:
        # 绘制每种类别个数柱状图
        plt.bar(range(len(flower_class)), every_class_num, align='center')
        # 将横坐标0,1,2,3,4替换为相应的类别名称
        plt.xticks(range(len(flower_class)), flower_class)
        # 在柱状图上添加数值标签
        for i, v in enumerate(every_class_num):
            plt.text(x=i, y=v + 5, s=str(v), ha='center')
        # 设置x坐标
        plt.xlabel('image class')
        # 设置y坐标
        plt.ylabel('number of images')
        # 设置柱状图的标题
        plt.title('flower class distribution')
        plt.show()
    return train_images_path, train_images_label, val_images_path, val_images_label
 def plot_data_loader_image(data_loader):
    batch_size = data_loader.batch_size
    plot_num = min(batch_size, 4)
    json_path = './class_indices.json'
    assert os.path.exists(json_path), json_path + " does not exist."
    json_file = open(json_path, 'r')
    class_indices = json.load(json_file)
    for data in data_loader:
        images, labels = data
        for i in range(plot_num):
            # [C, H, W] -> [H, W, C]
            img = images[i].numpy().transpose(1, 2, 0)
            # 反Normalize操作
            img = (img * [0.229, 0.224, 0.225] + [0.485, 0.456, 0.406]) * 255
            label = labels[i].item()
            plt.subplot(1, plot_num, i+1)
            plt.xlabel(class_indices[str(label)])
            plt.xticks([])  # 去掉x轴的刻度
            plt.yticks([])  # 去掉y轴的刻度
            plt.imshow(img.astype('uint8'))
        plt.show()
 def write_pickle(list_info: list, file_name: str):
    with open(file_name, 'wb') as f:
        pickle.dump(list_info, f)
 def read_pickle(file_name: str) -> list:
    with open(file_name, 'rb') as f:
        info_list = pickle.load(f)
        return info_list
 def train_one_epoch(model, optimizer, data_loader, device, epoch):
    model.train()
    loss_function = torch.nn.CrossEntropyLoss(label_smoothing=0.1)
    accu_loss = torch.zeros(1).to(device)  # 累计损失
    accu_num = torch.zeros(1).to(device)   # 累计预测正确的样本数
    optimizer.zero_grad()
    sample_num = 0
    data_loader = tqdm(data_loader, file=sys.stdout)
    for step, data in enumerate(data_loader):
        images, labels = data
        sample_num += images.shape[0]
        pred = model(images.to(device))
        pred_classes = torch.max(pred, dim=1)[1]
        accu_num += torch.eq(pred_classes, labels.to(device)).sum()
        loss = loss_function(pred, labels.to(device))
        loss.backward()
        accu_loss += loss.detach()
        data_loader.desc = "[train epoch {}] loss: {:.3f}, acc: {:.3f}".format(epoch,
                                                                               accu_loss.item() / (step + 1),
                                                                               accu_num.item() / sample_num)
        if not torch.isfinite(loss):
            print('WARNING: non-finite loss, ending training ', loss)
            sys.exit(1)
        optimizer.step()
        optimizer.zero_grad()
    return accu_loss.item() / (step + 1), accu_num.item() / sample_num
@torch.no_grad()
 def evaluate(model, data_loader, device, epoch):
    loss_function = torch.nn.CrossEntropyLoss()
    model.eval()
    accu_num = torch.zeros(1).to(device)   # 累计预测正确的样本数
    accu_loss = torch.zeros(1).to(device)  # 累计损失
    sample_num = 0
    data_loader = tqdm(data_loader, file=sys.stdout)
    for step, data in enumerate(data_loader):
        images, labels = data
        sample_num += images.shape[0]
        pred = model(images.to(device))
        pred_classes = torch.max(pred, dim=1)[1]
        accu_num += torch.eq(pred_classes, labels.to(device)).sum()
        loss = loss_function(pred, labels.to(device))
        accu_loss += loss
        data_loader.desc = "[valid epoch {}] loss: {:.3f}, acc: {:.3f}".format(epoch,
                                                                               accu_loss.item() / (step + 1),
                                                                               accu_num.item() / sample_num)
    return accu_loss.item() / (step + 1), accu_num.item() / sample_num
--- a/Emotion/FacialEmotion/video.py
+++ b/Emotion/FacialEmotion/video.py
@ -0,0 +1,84 @@
 import cv2
 import dlib
 import numpy as np
 from PIL import Image, ImageDraw, ImageFont
 from predict_api import ImagePredictor
 def draw_chinese_text(image, text, position, color=(0, 255, 0)):
    # Convert cv2 image to PIL image
    image_pil = Image.fromarray(cv2.cvtColor(image, cv2.COLOR_BGR2RGB))
    # Create a blank image with alpha channel, same size as original image
    blank = Image.new('RGBA', image_pil.size, (0, 0, 0, 0))
    # Create a draw object and draw text on the blank image
    draw = ImageDraw.Draw(blank)
    font = ImageFont.truetype("simhei.ttf", 20)
    draw.text(position, text, fill=color, font=font)
    # Composite the original image with the blank image
    image_pil = Image.alpha_composite(image_pil.convert('RGBA'), blank)
    # Convert PIL image back to cv2 image
    image = cv2.cvtColor(np.array(image_pil), cv2.COLOR_RGB2BGR)
    return image
 # Initialize face detector
 detector = dlib.get_frontal_face_detector()
 # Initialize ImagePredictor
 predictor = ImagePredictor(model_path="./best.pth", class_indices_path="./class_indices.json")
 # Open the webcam
 cap = cv2.VideoCapture(0)
 while True:
    # Read a frame from the webcam
    ret, frame = cap.read()
    if not ret:
        break
    # Convert the frame to grayscale
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
    # Detect faces in the frame
    faces = detector(gray)
    for rect in faces:
        # Get the coordinates of the face rectangle
        x = rect.left()
        y = rect.top()
        w = rect.width()
        h = rect.height()
        # Crop the face from the frame
        face = frame[y:y+h, x:x+w]
        # Predict the emotion of the face
        result = predictor.predict(face)
        # Get the emotion with the highest score
        emotion = result["result"]["name"]
        # Draw the rectangle around the face
        cv2.rectangle(frame, (x, y), (x+w, y+h), (0, 255, 0), 2)
        # Put the emotion text above the rectangle  cv2
        # cv2.putText(frame, emotion, (x, y-10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (0, 255, 0), 2)
        # Put the emotion text above the rectangle PIL
        frame = draw_chinese_text(frame, emotion, (x, y))
    # Display the frame
    cv2.imshow("Emotion Recognition", frame)
    # Break the loop if 'q' is pressed
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break
 # Release the webcam and destroy all windows
 cap.release()
 cv2.destroyAllWindows()
--- a/HeartRate/HeartRateMonitor.py
+++ b/HeartRate/HeartRateMonitor.py
@ -0,0 +1,157 @@
 import dlib
 import numpy as np
 import scipy.fftpack as fftpack
 from sklearn.decomposition import FastICA
 import cv2
 from scipy import signal
 class HeartRateMonitor:
    def __init__(self, fps, freqs_min, freqs_max):
        self.fps = fps
        self.freqs_min = freqs_min
        self.freqs_max = freqs_max
        self.all_hr_values = []
    def get_channel_signal(self, ROI):
        blue = []
        green = []
        red = []
        for roi in ROI:
            b, g, r = cv2.split(roi)
            b = np.mean(np.sum(b)) / np.std(b)
            g = np.mean(np.sum(g)) / np.std(g)
            r = np.mean(np.sum(r)) / np.std(r)
            blue.append(b)
            green.append(g)
            red.append(r)
        return blue, green, red
    def ICA(self, matrix, n_component, max_iter=200):
        matrix = matrix.T
        ica = FastICA(n_components=n_component, max_iter=max_iter)
        u = ica.fit_transform(matrix)
        return u.T
    def fft_filter(self, signal):
        fft = fftpack.fft(signal, axis=0)
        frequencies = fftpack.fftfreq(signal.shape[0], d=1.0 / self.fps)
        bound_low = (np.abs(frequencies - self.freqs_min)).argmin()
        bound_high = (np.abs(frequencies - self.freqs_max)).argmin()
        fft[:bound_low] = 0
        fft[bound_high:-bound_high] = 0
        fft[-bound_low:] = 0
        return fft, frequencies
    def find_heart_rate(self, fft, freqs):
        fft_maximums = []
        for i in range(fft.shape[0]):
            if self.freqs_min <= freqs[i] <= self.freqs_max:
                fftMap = abs(fft[i])
                fft_maximums.append(fftMap.max())
            else:
                fft_maximums.append(0)
        peaks, properties = signal.find_peaks(fft_maximums)
        max_peak = -1
        max_freq = 0
        for peak in peaks:
            if fft_maximums[peak] > max_freq:
                max_freq = fft_maximums[peak]
                max_peak = peak
        return freqs[max_peak] * 60
    def fourier_transform(self, signal, N, fs):
        result = fftpack.fft(signal, N)
        result = np.abs(result)
        freqs = np.arange(N) / N
        freqs = freqs * fs
        return result[:N // 2], freqs[:N // 2]
    def calculate_hrv(self, hr_values, window_size=5):
        num_values = int(window_size * self.fps)
        start_idx = max(0, len(hr_values) - num_values)
        recent_hr_values = hr_values[start_idx:]
        rr_intervals = np.array(recent_hr_values)
        # 计算SDNN
        sdnn = np.std(rr_intervals)
        # 计算RMSSD
        nn_diffs = np.diff(rr_intervals)
        rmssd = np.sqrt(np.mean(nn_diffs ** 2))
        # 计算CV R-R
        mean_rr = np.mean(rr_intervals)
        cv_rr = sdnn / mean_rr if mean_rr != 0 else 0
        return sdnn, rmssd, cv_rr
    def process_roi(self, ROI):
        blue, green, red = self.get_channel_signal(ROI)
        matrix = np.array([blue, green, red])
        component = self.ICA(matrix, 3)
        hr_values = []
        for i in range(3):
            fft, freqs = self.fft_filter(component[i])
            heartrate = self.find_heart_rate(fft, freqs)
            hr_values.append(heartrate)
        avg_hr = sum(hr_values) / 3
        self.all_hr_values.append(avg_hr)
        sdnn, rmssd, cv_rr = self.calculate_hrv(self.all_hr_values, window_size=5)
        return avg_hr, sdnn, rmssd, cv_rr
 if __name__ == '__main__':
    ROI = []
    freqs_min = 0.8
    freqs_max = 1.8
    heartrate = 0
    sdnn, rmssd, cv_rr = 0, 0, 0
    camera_code = 0
    capture = cv2.VideoCapture(camera_code)
    fps = capture.get(cv2.CAP_PROP_FPS)
    hr_monitor = HeartRateMonitor(fps, freqs_min, freqs_max)
    detector = dlib.get_frontal_face_detector()
    while capture.isOpened():
        ret, frame = capture.read()
        if not ret:
            continue
        dects = detector(frame)
        for face in dects:
            left = face.left()
            right = face.right()
            top = face.top()
            bottom = face.bottom()
            h = bottom - top
            w = right - left
            roi = frame[top + h // 10 * 2:top + h // 10 * 7, left + w // 9 * 2:left + w // 9 * 8]
            cv2.rectangle(frame, (left + w // 9 * 2, top + h // 10 * 2), (left + w // 9 * 8, top + h // 10 * 7),
                         color=(0, 0, 255))
            cv2.rectangle(frame, (left, top), (left + w, top + h), color=(0, 0, 255))
            ROI.append(roi)
            if len(ROI) == 300:
                heartrate, sdnn, rmssd, cv_rr = hr_monitor.process_roi(ROI)
                for i in range(30):
                    ROI.pop(0)
        cv2.putText(frame, '{:.1f}bps, CV R-R: {:.2f}'.format(heartrate, cv_rr), (50, 50), cv2.FONT_HERSHEY_SIMPLEX, 1.2,
                   (255, 0, 255), 2)
        cv2.putText(frame, 'SDNN: {:.2f}, RMSSD: {:.2f}'.format(sdnn, rmssd), (50, 80),
                   cv2.FONT_HERSHEY_SIMPLEX, 1,
                   (255, 0, 255), 2)
        cv2.imshow('frame', frame)
        if cv2.waitKey(1) & 0xFF == ord('q'):
            break
    cv2.destroyAllWindows()
    capture.release()
--- a/HeartRate/README.md
+++ b/HeartRate/README.md
@ -0,0 +1,58 @@
 # Video-based Heart Rate Monitoring
 这个项目是一个基于视频的心率监测系统。它使用计算机视觉技术从人脸视频中提取心率信息。主要功能包括:
 1. 检测人脸区域
 2. 从人脸区域提取RGB彩色通道信号
 3. 使用独立分量分析(ICA)从RGB信号中提取心率相关信号
 4. 使用FFT对信号进行频率分析,找出相应的心率值
 5. 计算心率变异性(HRV)指标,如SDNN、RMSSD和CV R-R
 ## 文件结构
 - `HeartRateMonitor.py`: 实现心率监测算法的核心逻辑，以及算法演示程序。
 ## 使用方法
 1. 确保已安装所需的Python库,包括`opencv-python`、`dlib`、`numpy`、`scipy`和`scikit-learn`
 2. 运行`HeartRateMonitor.py`脚本
 3. 脚本将打开默认摄像头,检测人脸区域
 4. 从人脸区域提取RGB彩色通道信号,使用ICA分离出心率信号
 5. 使用FFT分析心率信号,计算当前心率值
 6. 同时计算心率变异性指标SDNN、RMSSD和CV R-R
 7. 在视频画面上显示心率值和HRV指标
 ## 算法原理
 ### 心率信号提取
 1. 从人脸ROI区域提取RGB三个通道的平均值和标准差
 2. 将RGB三个通道作为特征矩阵的三行输入ICA算法
 3. ICA算法将特征矩阵分解为3个独立分量
 4. 选择其中一个独立分量作为心率信号
 ### 心率计算
 1. 对心率信号进行FFT变换得到频率域表示
 2. 根据设定的有效心率频率范围过滤FFT结果
 3. 在过滤后的FFT结果中找到最大值对应的频率,即为当前心率值(bpm)
 ### 心率变异性指标
 1. 使用滑动窗口从最近的心率值序列中提取一段心率数据
 2. 计算该段数据的SDNN(标准差)、RMSSD(连续差分平方根值的均值)和CV R-R(R-R间期变异系数)
 3. 以上三个指标反映了心率的变异程度
 ## 参数说明
 - `freqs_min`: 有效心率频率的下限(Hz)
 - `freqs_max`: 有效心率频率的上限(Hz)
 - `camera_code`: 使用的摄像头编号,0为默认摄像头
 ## 注意事项
 - 算法依赖人脸检测,如果人脸被遮挡或角度过大,将影响心率测量的准确性
 - 在光照条件较差的环境下,也可能影响测量精度
 - 目前只支持单个人脸的心率检测,多人情况下需要进一步改进
 - 算法的鲁棒性还有待提高,在特殊情况下可能会出现失效或测量偏差
--- a/RespirationRate/README.md
+++ b/RespirationRate/README.md
@ -0,0 +1,77 @@
 # Video-based Respiration Rate Detection Algorithm
 该项目是一个基于视频图像的呼吸频率检测算法的实现。它可以从视频中提取人体的呼吸曲线并计算呼吸频率。该算法使用了光流法、相关性引导的光流法、滤波、归一化等技术来提高检测精度。同时，它提供了多种呼吸频率计算方法供选择，包括FFT、Peak Counting、Crossing Point和Negative Feedback Crossover Point等。
 ## 文件结构
 - `params.py`: 包含所有可配置的参数及其默认值。
 - `RespirationRateDetector.py`: 实现了呼吸频率检测算法的核心逻辑。
 - `demo.py`: 演示程序，从摄像头读取视频流并实时显示呼吸曲线和呼吸频率。
 ## 使用方法
 1. 克隆该项目到本地。
 2. 安装所需的Python依赖包，OpenCV、NumPy、SciPy、Matplotlib。
 3. 根据需要在`params.py`中调整参数设置。
 4. 运行`demo.py`启动演示程序。
 程序将打开一个窗口显示从摄像头捕获的视频流，并在另一个窗口中绘制实时呼吸曲线。同时，它还会在视频窗口上显示使用不同方法计算得到的呼吸频率值。
 ## 核心算法
 该算法的核心步骤包括：
 1. **光流法**：使用光流法跟踪视频中的特征点，并计算这些特征点的运动幅度和。
 2. **相关性引导的光流法**：通过计算每个特征点与呼吸曲线的相关性，筛选出与呼吸相关的特征点，以提高检测精度。
 3. **滤波**：对原始呼吸曲线进行带通滤波，去除高频和低频噪声。
 4. **归一化**：将滤波后的呼吸曲线进行归一化处理。
 5. **呼吸频率计算**：使用FFT、Peak Counting、Crossing Point和Negative Feedback Crossover Point等多种方法计算呼吸频率。
 ## 参数说明
 `params.py`中包含了该算法的所有可配置参数及其默认值。主要参数包括：
 - `--video-path`: 输入视频文件的路径。默认值为'./1.mp4'。
 - `--FSS`: 是否启用特征点选择策略(Feature Point Selection Strategy)。默认为True。
 - `--CGOF`: 是否启用相关性引导的光流法(Correlation-Guided Optical Flow Method)。默认为True。 
 - `--filter`: 是否对呼吸曲线进行滤波。默认为True。
 - `--Normalization`: 是否对呼吸曲线进行归一化。默认为True。
 - `--RR_Evaluation`: 是否计算呼吸频率。默认为True。
 其他参数控制光流法、特征点选择策略、滤波和呼吸频率计算的具体设置。
 - `--OFP-maxCorners`: 光流法中检测特征点的最大数量。默认为100。
 - `--OFP-qualityLevel`: 光流法中特征点检测的质量等级。默认为0.1。 
 - `--OFP-minDistance`: 光流法中特征点之间的最小距离。默认为7。
 - `--OFP-mask`: 光流法中使用的mask,用于指定感兴趣区域。默认为None。
 - `--OFP-QualityLevelRV`: 当无法检测到足够数量的特征点时,降低质量等级的步长值。默认为0.05。
 - `--OFP-winSize`: 光流法中金字塔Lucas-Kanade光流估计器的窗口大小。默认为(15,15)。 
 - `--OFP-maxLevel`: 光流法中的金字塔层数。默认为2。
 - `--FSS-switch`: 是否启用特征点选择策略。 
 - `--FSS-maxCorners`: 特征点选择策略中检测特征点的最大数量。默认为100。
 - `--FSS-qualityLevel`: 特征点选择策略中特征点检测的质量等级。默认为0.1。
 - `--FSS-minDistance`: 特征点选择策略中特征点之间的最小距离。默认为7。 
 - `--FSS-mask`: 特征点选择策略中使用的mask。默认为None。
 - `--FSS-QualityLevelRV`: 当无法检测到足够数量的特征点时,降低质量等级的步长值。默认为0.05。
 - `--FSS-FPN`: 特征点选择策略中要选择的特征点数量。默认为5。
 - `--CGOF-switch`: 是否启用相关性引导的光流法。
 - `--Filter-switch`: 是否对呼吸曲线进行滤波。
 - `--Filter-type`: 滤波器的类型,可选'lowpass'、'highpass'、'bandpass'和'bandstop'。默认为'bandpass'。
 - `--Filter-order`: 滤波器的阶数。默认为3。
 - `--Filter-LowPass`: 带通滤波器的低通频率(次/分钟)。默认为2。  
 - `--Filter-HighPass`: 带通滤波器的高通频率(次/分钟)。默认为40。
 - `--Normalization-switch`: 是否对呼吸曲线进行归一化。
 - `--RR-switch`: 是否计算呼吸频率。
 - `--RR-Algorithm-PC-Height`: Peak Counting算法中使用的峰值高度阈值。默认为None。
 - `--RR-Algorithm-PC-Threshold`: Peak Counting算法中使用的峰值门限。默认为None。
 - `--RR-Algorithm-PC-MaxRR`: Peak Counting算法中呼吸频率的最大值(次/分钟)。默认为45。
 - `--RR-Algorithm-CP-shfit_distance`: Crossing Point算法中使用的移位距离。默认为15。
 - `--RR-Algorithm-NFCP-shfit_distance`: Negative Feedback Crossover Point算法中使用的移位距离。默认为15。 
 - `--RR-Algorithm-NFCP-qualityLevel`: Negative Feedback Crossover Point算法中使用的质量等级。默认为0.6。
--- a/RespirationRate/RespirationRateDetector.py
+++ b/RespirationRate/RespirationRateDetector.py
@ -0,0 +1,233 @@
 import cv2
 import numpy as np
 from scipy import signal
 from scipy.fftpack import fft
 from scipy.signal import find_peaks
 class RespirationRateDetector:
    def __init__(self, args):
        self.args = args
    def FeaturePointSelectionStrategy(self, Image, FPN=5, QualityLevel=0.3):
        Image_gray = Image
        feature_params = dict(maxCorners=self.args.FSS_maxCorners,
                              qualityLevel=QualityLevel,
                              minDistance=self.args.FSS_minDistance)
        p0 = cv2.goodFeaturesToTrack(Image_gray, mask=self.args.FSS_mask, **feature_params)
        """ Robust checking """
        while (p0 is None):
            QualityLevel = QualityLevel - self.args.FSS_QualityLevelRV
            feature_params = dict(maxCorners=self.args.FSS_maxCorners,
                                  qualityLevel=QualityLevel,
                                  minDistance=self.args.FSS_minDistance)
            p0 = cv2.goodFeaturesToTrack(Image_gray, mask=None, **feature_params)
        if len(p0) < FPN:
            FPN = len(p0)
        h = Image_gray.shape[0] / 2
        w = Image_gray.shape[1] / 2
        p1 = p0.copy()
        p1[:, :, 0] -= w
        p1[:, :, 1] -= h
        p1_1 = np.multiply(p1, p1)
        p1_2 = np.sum(p1_1, 2)
        p1_3 = np.sqrt(p1_2)
        p1_4 = p1_3[:, 0]
        p1_5 = np.argsort(p1_4)
        FPMap = np.zeros((FPN, 1, 2), dtype=np.float32)
        for i in range(FPN):
            FPMap[i, :, :] = p0[p1_5[i], :, :]
        return FPMap
    def CorrelationGuidedOpticalFlowMethod(self, FeatureMtx_Amp, RespCurve):
        CGAmp_Mtx = FeatureMtx_Amp.T
        CGAmpAugmented_Mtx = np.zeros((CGAmp_Mtx.shape[0] + 1, CGAmp_Mtx.shape[1]))
        CGAmpAugmented_Mtx[0, :] = RespCurve
        CGAmpAugmented_Mtx[1:, :] = CGAmp_Mtx
        Correlation_Mtx = np.corrcoef(CGAmpAugmented_Mtx)
        CM_mean = np.mean(abs(Correlation_Mtx[0, 1:]))
        Quality_num = (abs(Correlation_Mtx[0, 1:]) >= CM_mean).sum()
        QualityFeaturePoint_arg = (abs(Correlation_Mtx[0, 1:]) >= CM_mean).argsort()[0 - Quality_num:]
        CGOF_Mtx = np.zeros((FeatureMtx_Amp.shape[0], Quality_num))
        for i in range(Quality_num):
            CGOF_Mtx[:, i] = FeatureMtx_Amp[:, QualityFeaturePoint_arg[i]]
        CGOF_Mtx_RespCurve = np.sum(CGOF_Mtx, 1) / Quality_num
        return CGOF_Mtx_RespCurve
    def ImproveOpticalFlow(self, frames, fs):
        feature_params = dict(maxCorners=self.args.OFP_maxCorners,
                              qualityLevel=self.args.OFP_qualityLevel,
                              minDistance=self.args.OFP_minDistance)
        old_frame = frames[0]
        old_gray = cv2.cvtColor(old_frame, cv2.COLOR_BGR2GRAY)
        p0 = cv2.goodFeaturesToTrack(old_gray, mask=self.args.OFP_mask, **feature_params)
        """ Robust Checking """
        while (p0 is None):
            self.args.OFP_qualityLevel = self.args.OFP_qualityLevel - self.args.OFP_QualityLevelRV
            feature_params = dict(maxCorners=self.args.OFP_maxCorners,
                                  qualityLevel=self.args.OFP_qualityLevel,
                                  minDistance=self.args.OFP_minDistance)
            p0 = cv2.goodFeaturesToTrack(old_gray, mask=None, **feature_params)
        """ FeaturePoint Selection Strategy """
        if self.args.FSS:
            p0 = self.FeaturePointSelectionStrategy(Image=old_gray, FPN=self.args.FSS_FPN,
                                                    QualityLevel=self.args.FSS_qualityLevel)
        else:
            p0 = cv2.goodFeaturesToTrack(old_gray, mask=None, **feature_params)
        lk_params = dict(winSize=self.args.OFP_winSize, maxLevel=self.args.OFP_maxLevel)
        total_frame = len(frames)
        FeatureMtx = np.zeros((total_frame, p0.shape[0], 2))
        FeatureMtx[0, :, 0] = p0[:, 0, 0].T
        FeatureMtx[0, :, 1] = p0[:, 0, 1].T
        frame_num = 1
        while (frame_num < total_frame):
            frame_num += 1
            frame = frames[frame_num - 1]
            frame_gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
            pl, st, err = cv2.calcOpticalFlowPyrLK(old_gray, frame_gray, p0, None, **lk_params)
            old_gray = frame_gray.copy()
            p0 = pl.reshape(-1, 1, 2)
            FeatureMtx[frame_num - 1, :, 0] = p0[:, 0, 0].T
            FeatureMtx[frame_num - 1, :, 1] = p0[:, 0, 1].T
        FeatureMtx_Amp = np.sqrt(FeatureMtx[:, :, 0] ** 2 + FeatureMtx[:, :, 1] ** 2)
        RespCurve = np.sum(FeatureMtx_Amp, 1) / p0.shape[0]
        """ CCorrelation-Guided Optical Flow Method """
        if self.args.CGOF:
            RespCurve = self.CorrelationGuidedOpticalFlowMethod(FeatureMtx_Amp, RespCurve)
        """" Filter """
        if self.args.filter:
            original_signal = RespCurve
            #
            filter_order = self.args.Filter_order
            LowPass = self.args.Filter_LowPass / 60
            HighPass = self.args.Filter_HighPass / 60
            b, a = signal.butter(filter_order, [2 * LowPass / fs, 2 * HighPass / fs], self.args.Filter_type)
            filtedResp = signal.filtfilt(b, a, original_signal)
        else:
            filtedResp = RespCurve
        """ Normalization """
        if self.args.Normalization:
            Resp_max = max(filtedResp)
            Resp_min = min(filtedResp)
            Resp_norm = (filtedResp - Resp_min) / (Resp_max - Resp_min) - 0.5
        else:
            Resp_norm = filtedResp
        return 1 - Resp_norm
    def FFT(self, data, fs):
        fft_y = fft(data)
        maxFrequency = fs
        f = np.linspace(0, maxFrequency, len(data))
        abs_y = np.abs(fft_y)
        normalization_y = abs_y / len(data)
        normalization_half_y = normalization_y[range(int(len(data) / 2))]
        sorted_indices = np.argsort(normalization_half_y)
        RR = f[sorted_indices[-2]] * 60
        return RR
    def PeakCounting(self, data, fs, Height=0.1, Threshold=0.2, MaxRR=30):
        Distance = 60 / MaxRR * fs
        peaks, _ = find_peaks(data, height=Height, threshold=Threshold, distance=Distance)
        RR = len(peaks) / (len(data) / fs) * 60
        return RR
    def CrossingPoint(self, data, fs):
        shfit_distance = int(fs / 2)
        data_shift = np.zeros(data.shape) - 1
        data_shift[shfit_distance:] = data[:-shfit_distance]
        cross_curve = data - data_shift
        zero_number = 0
        zero_index = []
        for i in range(len(cross_curve) - 1):
            if cross_curve[i] == 0:
                zero_number += 1
                zero_index.append(i)
            else:
                if cross_curve[i] * cross_curve[i + 1] < 0:
                    zero_number += 1
                    zero_index.append(i)
        cw = zero_number
        N = len(data)
        RR1 = ((cw / 2) / (N / fs)) * 60
        return RR1
    def NegativeFeedbackCrossoverPointMethod(self, data, fs, QualityLevel=0.2):
        shfit_distance = int(fs / 2)
        data_shift = np.zeros(data.shape) - 1
        data_shift[shfit_distance:] = data[:-shfit_distance]
        cross_curve = data - data_shift
        zero_number = 0
        zero_index = []
        for i in range(len(cross_curve) - 1):
            if cross_curve[i] == 0:
                zero_number += 1
                zero_index.append(i)
            else:
                if cross_curve[i] * cross_curve[i + 1] < 0:
                    zero_number += 1
                    zero_index.append(i)
        cw = zero_number
        N = len(data)
        RR1 = ((cw / 2) / (N / fs)) * 60
        if (len(zero_index) <= 1):
            RR2 = RR1
        else:
            time_span = 60 / RR1 / 2 * fs * QualityLevel
            zero_span = []
            for i in range(len(zero_index) - 1):
                zero_span.append(zero_index[i + 1] - zero_index[i])
            while (min(zero_span) < time_span):
                doubt_point = np.argmin(zero_span)
                zero_index.pop(doubt_point)
                zero_index.pop(doubt_point)
                if len(zero_index) <= 1:
                    break
                zero_span = []
                for i in range(len(zero_index) - 1):
                    zero_span.append(zero_index[i + 1] - zero_index[i])
            zero_number = len(zero_index)
            cw = zero_number
            RR2 = ((cw / 2) / (N / fs)) * 60
        return RR2
    def detect_respiration_rate(self, frames, fs):
        resp_curve = self.ImproveOpticalFlow(frames, fs)
        RR_FFT = self.FFT(resp_curve, fs)
        RR_PC = self.PeakCounting(resp_curve, fs)
        RR_CP = self.CrossingPoint(resp_curve, fs)
        RR_NFCP = self.NegativeFeedbackCrossoverPointMethod(resp_curve, fs)
        return resp_curve, RR_FFT, RR_PC, RR_CP, RR_NFCP
--- a/RespirationRate/demo.py
+++ b/RespirationRate/demo.py
@ -0,0 +1,104 @@
 import queue
 import cv2
 import numpy as np
 from RespirationRateDetector import RespirationRateDetector
 from params import args
 import matplotlib.pyplot as plt
 def main():
    cap = cv2.VideoCapture(0)  # 使用摄像头
    video_fs = cap.get(5)
    detector = RespirationRateDetector(args)
    frames = []
    text = ["calculating..."]
    font = cv2.FONT_HERSHEY_SIMPLEX
    # face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + 'haarcascade_frontalface_default.xml')
    resps = queue.Queue()
    fig, ax = plt.subplots()
    line, = ax.plot([], [])
    plt.ion()
    plt.show()
    xdata = []
    ydata = []
    last = 0
    while True:
        ret, frame = cap.read()
        frames.append(frame)
        if len(frames) == 300:
            Resp, RR_FFT, RR_PC, RR_CP, RR_NFCP = detector.detect_respiration_rate(frames, video_fs)
            Resp[0] = last
            for res in Resp:
                resps.put(res)
            last = Resp[-1]
            text.clear()
            text.append('RR-FFT: {:.2f} bpm'.format(RR_FFT))
            text.append('RR-PC: {:.2f} bpm'.format(RR_PC))
            text.append('RR-CP: {:.2f} bpm'.format(RR_CP))
            text.append('RR-NFCP: {:.2f} bpm'.format(RR_NFCP))
            frames = []
            # 去除列表最前面的100个元素
            # frames=frames[50:]
        if not resps.empty():
            resp = resps.get()
            # 更新线的数据
            ydata.append(resp)
        else:
            ydata.append(0)
        if len(xdata) == 0:
            xdata.append(1)
        else:
            xdata.append(xdata[-1] + 1)
        if len(xdata) > 600:
            xdata.pop(0)
            ydata.pop(0)
        # 生成时间序列
        t = np.linspace(xdata[0] / video_fs, xdata[-1] / video_fs, len(ydata))
        line.set_data(t, ydata)  # 使用时间序列作为x轴
        # 更新坐标轴的范围
        ax.set_xlim(t[0], t[-1])
        ax.set_ylim(min(0, min(ydata)) - 0.5 * abs(min(ydata)), 1.5 * max(ydata))
        # 更新图表的显示
        plt.draw()
        plt.pause(0.01)
        for i, t in enumerate(text):
            cv2.putText(frame, t, (10, 60 + i * 20), font, 0.6, (0, 255, 0), 2)
        cv2.imshow('Respiration Rate Detection', frame)
        key = cv2.waitKey(1) & 0xFF
        if key == ord('q'):
            break
    cap.release()
    cv2.destroyAllWindows()
    plt.close()
 if __name__ == '__main__':
    main()
--- a/RespirationRate/params.py
+++ b/RespirationRate/params.py
@ -0,0 +1,55 @@
 import argparse
 parser = argparse.ArgumentParser('Lightweight Video-based Respiration Rate Detection Algorithm script', add_help=False)
 parser.add_argument('--video-path', default='./1.mp4', help='Video input path')
 parser.add_argument('--FSS', default=True, type=bool, help='')
 parser.add_argument('--CGOF', default=True, type=bool, help='')
 parser.add_argument('--filter', default=True, type=bool, help='')
 parser.add_argument('--Normalization', default=True, type=bool, help='')
 parser.add_argument('--RR_Evaluation', default=True, type=bool, help='')
 # # Optical flow parameters
 parser.add_argument('--OFP-maxCorners', default=100, type=int, help='')
 parser.add_argument('--OFP-qualityLevel', default=0.1, type=float, help='')
 parser.add_argument('--OFP-minDistance', default=7, type=int, help='')
 parser.add_argument('--OFP-mask', default=None, help='')
 parser.add_argument('--OFP-QualityLevelRV', default=0.05, type=float, help='QualityLeve reduction value')
 parser.add_argument('--OFP-winSize', default=(15, 15), help='')
 parser.add_argument('--OFP-maxLevel', default=2, type=int, help='')
 # # FeaturePoint Selection Strategy parameters
 parser.add_argument('--FSS-switch', action='store_true', dest='FSS_switch')
 parser.add_argument('--FSS-maxCorners', default=100, type=int, help='')
 parser.add_argument('--FSS-qualityLevel', default=0.1, type=float, help='')
 parser.add_argument('--FSS-minDistance', default=7, type=int, help='')
 parser.add_argument('--FSS-mask', default=None, help='')
 parser.add_argument('--FSS-QualityLevelRV', default=0.05, type=float, help='QualityLeve reduction value')
 parser.add_argument('--FSS-FPN', default=5, type=int,
                    help='The number of feature points for the feature point selection strategy')
 # # CCorrelation-Guided Optical Flow Method parameters
 parser.add_argument('--CGOF-switch', action='store_true', dest='CGOF_switch')
 # # Filter parameters
 parser.add_argument('--Filter-switch', action='store_true', dest='Filter_switch')
 parser.add_argument('--Filter-type', default='bandpass', help='')
 parser.add_argument('--Filter-order', default=3, type=int, help='')
 parser.add_argument('--Filter-LowPass', default=2, type=int, help='')
 parser.add_argument('--Filter-HighPass', default=40, type=int, help='')
 # # Normalization parameters
 parser.add_argument('--Normalization-switch', action='store_true', dest='Normalization_switch')
 # # RR Evaluation parameters
 parser.add_argument('--RR-switch', action='store_true', dest='RR_switch')
 # # RR Algorithm parameters
 parser.add_argument('--RR-Algorithm-PC-Height', default=None, help='')
 parser.add_argument('--RR-Algorithm-PC-Threshold', default=None, help='')
 parser.add_argument('--RR-Algorithm-PC-MaxRR', default=45, type=int, help='')
 parser.add_argument('--RR-Algorithm-CP-shfit_distance', default=15, type=int, help='')
 parser.add_argument('--RR-Algorithm-NFCP-shfit_distance', default=15, type=int, help='')
 parser.add_argument('--RR-Algorithm-NFCP-qualityLevel', default=0.6, type=float, help='')
 args = parser.parse_args()
--- a/SkinDisease/README.md
+++ b/SkinDisease/README.md
@ -0,0 +1,34 @@
 # 基于视觉的皮肤病检测系统
 该项目是一个基于图像的皮肤病检测系统。它使用MobileViT在皮肤图像数据集上进行训练,然后可以从摄像头输入的视频中检测人脸,并为每个检测到的人脸预测皮肤病类型，共支持24类。
 ## 核心文件
 - `class_indices.json`: 包含皮肤病类型标签和对应数值编码的映射。
 - `predict_api.py`: 包含图像预测模型的加载、预处理和推理逻辑。
 - `video.py`: 视频处理和可视化的主要脚本。
 - `best300_model_0.7302241690286009.pth`: 训练的模型权重文件。
 ## 使用方法
 1. 确保已安装所需的Python库,包括`opencv-python`、`torch`、`torchvision`、`Pillow`和`dlib`。
 2. 运行`video.py`脚本。
 3. 脚本将打开默认摄像头,开始人脸检测和皮肤病预测。
 4. 检测到的人脸周围会用矩形框标注,并显示预测的皮肤病类型和置信度分数。
 5. 按`q`键退出程序。
 ## 模型介绍
 该项目使用MobileViT作为基础模型,对皮肤病图像数据集进行训练,以预测人脸图像的皮肤类型。模型输出包含24个值,分别对应各皮肤病类型的概率。
 ### 数据集介绍
 该项目使用的皮肤病图像数据集来自网络开源数据，数据集包含20000张标注了皮肤病类型的人体皮肤图像。
 ## 算法流程
 1. **人脸检测**: 使用Dlib库中的预训练人脸检测器在视频帧中检测人脸。
 2. **预处理**: 对检测到的人脸图像进行缩放、裁剪和标准化等预处理,以满足模型的输入要求。
 3. **推理**: 将预处理后的图像输入到预训练的MobileViT模型中,获得不同皮肤病类型的概率预测结果。
 4. **后处理**: 选取概率最高的类别作为最终预测结果。
 5. **可视化**: 在视频帧上绘制人脸矩形框,并显示预测的皮肤病类型和置信度分数。
--- a/SkinDisease/best300_model_0.7302241690286009.pth
+++ b/SkinDisease/best300_model_0.7302241690286009.pth
--- a/SkinDisease/class_indices.json
+++ b/SkinDisease/class_indices.json
@ -0,0 +1,28 @@
 {
    "0": "痤疮或酒渣鼻",
    "1": "光化性角化病基底细胞癌或其他恶性病变",
    "2": "过敏性皮炎",
    "3": "大疱性疾病",
    "4": "蜂窝织炎、脓疱病或其他细菌感染",
    "5": "湿疹",
    "6": "皮疹或药疹",
    "7": "脱发或其他头发疾病",
    "8": "健康",
    "9": "疱疹、HPV或其他性病",
    "10": "轻度疾病和色素沉着障碍",
    "11": "狼疮或其他结缔组织疾病",
    "12": "黑色素瘤皮肤癌痣或痣",
    "13": "指甲真菌或其他指甲疾病",
    "14": "毒藤或其他接触性皮炎",
    "15": "牛皮癣、扁平苔藓或相关疾病",
    "16": "疥疮、莱姆病或其他感染和叮咬",
    "17": "脂溢性角化病或其他良性肿瘤",
    "18": "全身性疾病",
    "19": "癣念珠菌病或其他真菌感染",
    "20": "荨麻疹",
    "21": "血管肿瘤",
    "22": "血管炎",
    "23": "疣、软疣或其他病毒感染"
 }
--- a/SkinDisease/model.py
+++ b/SkinDisease/model.py
@ -0,0 +1,562 @@
 """
 original code from apple:
 https://github.com/apple/ml-cvnets/blob/main/cvnets/models/classification/mobilevit.py
 """
 from typing import Optional, Tuple, Union, Dict
 import math
 import torch
 import torch.nn as nn
 from torch import Tensor
 from torch.nn import functional as F
 from transformer import TransformerEncoder
 from model_config import get_config
 def make_divisible(
    v: Union[float, int],
    divisor: Optional[int] = 8,
    min_value: Optional[Union[float, int]] = None,
 ) -> Union[float, int]:
    """
    This function is taken from the original tf repo.
    It ensures that all layers have a channel number that is divisible by 8
    It can be seen here:
    https://github.com/tensorflow/models/blob/master/research/slim/nets/mobilenet/mobilenet.py
    :param v:
    :param divisor:
    :param min_value:
    :return:
    """
    if min_value is None:
        min_value = divisor
    new_v = max(min_value, int(v + divisor / 2) // divisor * divisor)
    # Make sure that round down does not go down by more than 10%.
    if new_v < 0.9 * v:
        new_v += divisor
    return new_v
 class ConvLayer(nn.Module):
    """
    Applies a 2D convolution over an input
    Args:
        in_channels (int): :math:`C_{in}` from an expected input of size :math:`(N, C_{in}, H_{in}, W_{in})`
        out_channels (int): :math:`C_{out}` from an expected output of size :math:`(N, C_{out}, H_{out}, W_{out})`
        kernel_size (Union[int, Tuple[int, int]]): Kernel size for convolution.
        stride (Union[int, Tuple[int, int]]): Stride for convolution. Default: 1
        groups (Optional[int]): Number of groups in convolution. Default: 1
        bias (Optional[bool]): Use bias. Default: ``False``
        use_norm (Optional[bool]): Use normalization layer after convolution. Default: ``True``
        use_act (Optional[bool]): Use activation layer after convolution (or convolution and normalization).
                                Default: ``True``
    Shape:
        - Input: :math:`(N, C_{in}, H_{in}, W_{in})`
        - Output: :math:`(N, C_{out}, H_{out}, W_{out})`
    .. note::
        For depth-wise convolution, `groups=C_{in}=C_{out}`.
    """
    def __init__(
        self,
        in_channels: int,
        out_channels: int,
        kernel_size: Union[int, Tuple[int, int]],
        stride: Optional[Union[int, Tuple[int, int]]] = 1,
        groups: Optional[int] = 1,
        bias: Optional[bool] = False,
        use_norm: Optional[bool] = True,
        use_act: Optional[bool] = True,
    ) -> None:
        super().__init__()
        if isinstance(kernel_size, int):
            kernel_size = (kernel_size, kernel_size)
        if isinstance(stride, int):
            stride = (stride, stride)
        assert isinstance(kernel_size, Tuple)
        assert isinstance(stride, Tuple)
        padding = (
            int((kernel_size[0] - 1) / 2),
            int((kernel_size[1] - 1) / 2),
        )
        block = nn.Sequential()
        conv_layer = nn.Conv2d(
            in_channels=in_channels,
            out_channels=out_channels,
            kernel_size=kernel_size,
            stride=stride,
            groups=groups,
            padding=padding,
            bias=bias
        )
        block.add_module(name="conv", module=conv_layer)
        if use_norm:
            norm_layer = nn.BatchNorm2d(num_features=out_channels, momentum=0.1)
            block.add_module(name="norm", module=norm_layer)
        if use_act:
            act_layer = nn.SiLU()
            block.add_module(name="act", module=act_layer)
        self.block = block
    def forward(self, x: Tensor) -> Tensor:
        return self.block(x)
 class InvertedResidual(nn.Module):
    """
    This class implements the inverted residual block, as described in `MobileNetv2 <https://arxiv.org/abs/1801.04381>`_ paper
    Args:
        in_channels (int): :math:`C_{in}` from an expected input of size :math:`(N, C_{in}, H_{in}, W_{in})`
        out_channels (int): :math:`C_{out}` from an expected output of size :math:`(N, C_{out}, H_{out}, W_{out)`
        stride (int): Use convolutions with a stride. Default: 1
        expand_ratio (Union[int, float]): Expand the input channels by this factor in depth-wise conv
        skip_connection (Optional[bool]): Use skip-connection. Default: True
    Shape:
        - Input: :math:`(N, C_{in}, H_{in}, W_{in})`
        - Output: :math:`(N, C_{out}, H_{out}, W_{out})`
    .. note::
        If `in_channels =! out_channels` and `stride > 1`, we set `skip_connection=False`
    """
    def __init__(
        self,
        in_channels: int,
        out_channels: int,
        stride: int,
        expand_ratio: Union[int, float],
        skip_connection: Optional[bool] = True,
    ) -> None:
        assert stride in [1, 2]
        hidden_dim = make_divisible(int(round(in_channels * expand_ratio)), 8)
        super().__init__()
        block = nn.Sequential()
        if expand_ratio != 1:
            block.add_module(
                name="exp_1x1",
                module=ConvLayer(
                    in_channels=in_channels,
                    out_channels=hidden_dim,
                    kernel_size=1
                ),
            )
        block.add_module(
            name="conv_3x3",
            module=ConvLayer(
                in_channels=hidden_dim,
                out_channels=hidden_dim,
                stride=stride,
                kernel_size=3,
                groups=hidden_dim
            ),
        )
        block.add_module(
            name="red_1x1",
            module=ConvLayer(
                in_channels=hidden_dim,
                out_channels=out_channels,
                kernel_size=1,
                use_act=False,
                use_norm=True,
            ),
        )
        self.block = block
        self.in_channels = in_channels
        self.out_channels = out_channels
        self.exp = expand_ratio
        self.stride = stride
        self.use_res_connect = (
            self.stride == 1 and in_channels == out_channels and skip_connection
        )
    def forward(self, x: Tensor, *args, **kwargs) -> Tensor:
        if self.use_res_connect:
            return x + self.block(x)
        else:
            return self.block(x)
 class MobileViTBlock(nn.Module):
    """
    This class defines the `MobileViT block <https://arxiv.org/abs/2110.02178?context=cs.LG>`_
    Args:
        opts: command line arguments
        in_channels (int): :math:`C_{in}` from an expected input of size :math:`(N, C_{in}, H, W)`
        transformer_dim (int): Input dimension to the transformer unit
        ffn_dim (int): Dimension of the FFN block
        n_transformer_blocks (int): Number of transformer blocks. Default: 2
        head_dim (int): Head dimension in the multi-head attention. Default: 32
        attn_dropout (float): Dropout in multi-head attention. Default: 0.0
        dropout (float): Dropout rate. Default: 0.0
        ffn_dropout (float): Dropout between FFN layers in transformer. Default: 0.0
        patch_h (int): Patch height for unfolding operation. Default: 8
        patch_w (int): Patch width for unfolding operation. Default: 8
        transformer_norm_layer (Optional[str]): Normalization layer in the transformer block. Default: layer_norm
        conv_ksize (int): Kernel size to learn local representations in MobileViT block. Default: 3
        no_fusion (Optional[bool]): Do not combine the input and output feature maps. Default: False
    """
    def __init__(
        self,
        in_channels: int,
        transformer_dim: int,
        ffn_dim: int,
        n_transformer_blocks: int = 2,
        head_dim: int = 32,
        attn_dropout: float = 0.0,
        dropout: float = 0.0,
        ffn_dropout: float = 0.0,
        patch_h: int = 8,
        patch_w: int = 8,
        conv_ksize: Optional[int] = 3,
        *args,
        **kwargs
    ) -> None:
        super().__init__()
        conv_3x3_in = ConvLayer(
            in_channels=in_channels,
            out_channels=in_channels,
            kernel_size=conv_ksize,
            stride=1
        )
        conv_1x1_in = ConvLayer(
            in_channels=in_channels,
            out_channels=transformer_dim,
            kernel_size=1,
            stride=1,
            use_norm=False,
            use_act=False
        )
        conv_1x1_out = ConvLayer(
            in_channels=transformer_dim,
            out_channels=in_channels,
            kernel_size=1,
            stride=1
        )
        conv_3x3_out = ConvLayer(
            in_channels=2 * in_channels,
            out_channels=in_channels,
            kernel_size=conv_ksize,
            stride=1
        )
        self.local_rep = nn.Sequential()
        self.local_rep.add_module(name="conv_3x3", module=conv_3x3_in)
        self.local_rep.add_module(name="conv_1x1", module=conv_1x1_in)
        assert transformer_dim % head_dim == 0
        num_heads = transformer_dim // head_dim
        global_rep = [
            TransformerEncoder(
                embed_dim=transformer_dim,
                ffn_latent_dim=ffn_dim,
                num_heads=num_heads,
                attn_dropout=attn_dropout,
                dropout=dropout,
                ffn_dropout=ffn_dropout
            )
            for _ in range(n_transformer_blocks)
        ]
        global_rep.append(nn.LayerNorm(transformer_dim))
        self.global_rep = nn.Sequential(*global_rep)
        self.conv_proj = conv_1x1_out
        self.fusion = conv_3x3_out
        self.patch_h = patch_h
        self.patch_w = patch_w
        self.patch_area = self.patch_w * self.patch_h
        self.cnn_in_dim = in_channels
        self.cnn_out_dim = transformer_dim
        self.n_heads = num_heads
        self.ffn_dim = ffn_dim
        self.dropout = dropout
        self.attn_dropout = attn_dropout
        self.ffn_dropout = ffn_dropout
        self.n_blocks = n_transformer_blocks
        self.conv_ksize = conv_ksize
    def unfolding(self, x: Tensor) -> Tuple[Tensor, Dict]:
        patch_w, patch_h = self.patch_w, self.patch_h
        patch_area = patch_w * patch_h
        batch_size, in_channels, orig_h, orig_w = x.shape
        new_h = int(math.ceil(orig_h / self.patch_h) * self.patch_h)
        new_w = int(math.ceil(orig_w / self.patch_w) * self.patch_w)
        interpolate = False
        if new_w != orig_w or new_h != orig_h:
            # Note: Padding can be done, but then it needs to be handled in attention function.
            x = F.interpolate(x, size=(new_h, new_w), mode="bilinear", align_corners=False)
            interpolate = True
        # number of patches along width and height
        num_patch_w = new_w // patch_w  # n_w
        num_patch_h = new_h // patch_h  # n_h
        num_patches = num_patch_h * num_patch_w  # N
        # [B, C, H, W] -> [B * C * n_h, p_h, n_w, p_w]
        x = x.reshape(batch_size * in_channels * num_patch_h, patch_h, num_patch_w, patch_w)
        # [B * C * n_h, p_h, n_w, p_w] -> [B * C * n_h, n_w, p_h, p_w]
        x = x.transpose(1, 2)
        # [B * C * n_h, n_w, p_h, p_w] -> [B, C, N, P] where P = p_h * p_w and N = n_h * n_w
        x = x.reshape(batch_size, in_channels, num_patches, patch_area)
        # [B, C, N, P] -> [B, P, N, C]
        x = x.transpose(1, 3)
        # [B, P, N, C] -> [BP, N, C]
        x = x.reshape(batch_size * patch_area, num_patches, -1)
        info_dict = {
            "orig_size": (orig_h, orig_w),
            "batch_size": batch_size,
            "interpolate": interpolate,
            "total_patches": num_patches,
            "num_patches_w": num_patch_w,
            "num_patches_h": num_patch_h,
        }
        return x, info_dict
    def folding(self, x: Tensor, info_dict: Dict) -> Tensor:
        n_dim = x.dim()
        assert n_dim == 3, "Tensor should be of shape BPxNxC. Got: {}".format(
            x.shape
        )
        # [BP, N, C] --> [B, P, N, C]
        x = x.contiguous().view(
            info_dict["batch_size"], self.patch_area, info_dict["total_patches"], -1
        )
        batch_size, pixels, num_patches, channels = x.size()
        num_patch_h = info_dict["num_patches_h"]
        num_patch_w = info_dict["num_patches_w"]
        # [B, P, N, C] -> [B, C, N, P]
        x = x.transpose(1, 3)
        # [B, C, N, P] -> [B*C*n_h, n_w, p_h, p_w]
        x = x.reshape(batch_size * channels * num_patch_h, num_patch_w, self.patch_h, self.patch_w)
        # [B*C*n_h, n_w, p_h, p_w] -> [B*C*n_h, p_h, n_w, p_w]
        x = x.transpose(1, 2)
        # [B*C*n_h, p_h, n_w, p_w] -> [B, C, H, W]
        x = x.reshape(batch_size, channels, num_patch_h * self.patch_h, num_patch_w * self.patch_w)
        if info_dict["interpolate"]:
            x = F.interpolate(
                x,
                size=info_dict["orig_size"],
                mode="bilinear",
                align_corners=False,
            )
        return x
    def forward(self, x: Tensor) -> Tensor:
        res = x
        fm = self.local_rep(x)
        # convert feature map to patches
        patches, info_dict = self.unfolding(fm)
        # learn global representations
        for transformer_layer in self.global_rep:
            patches = transformer_layer(patches)
        # [B x Patch x Patches x C] -> [B x C x Patches x Patch]
        fm = self.folding(x=patches, info_dict=info_dict)
        fm = self.conv_proj(fm)
        fm = self.fusion(torch.cat((res, fm), dim=1))
        return fm
 class MobileViT(nn.Module):
    """
    This class implements the `MobileViT architecture <https://arxiv.org/abs/2110.02178?context=cs.LG>`_
    """
    def __init__(self, model_cfg: Dict, num_classes: int = 1000):
        super().__init__()
        image_channels = 3
        out_channels = 16
        self.conv_1 = ConvLayer(
            in_channels=image_channels,
            out_channels=out_channels,
            kernel_size=3,
            stride=2
        )
        self.layer_1, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer1"])
        self.layer_2, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer2"])
        self.layer_3, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer3"])
        self.layer_4, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer4"])
        self.layer_5, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer5"])
        exp_channels = min(model_cfg["last_layer_exp_factor"] * out_channels, 960)
        self.conv_1x1_exp = ConvLayer(
            in_channels=out_channels,
            out_channels=exp_channels,
            kernel_size=1
        )
        self.classifier = nn.Sequential()
        self.classifier.add_module(name="global_pool", module=nn.AdaptiveAvgPool2d(1))
        self.classifier.add_module(name="flatten", module=nn.Flatten())
        if 0.0 < model_cfg["cls_dropout"] < 1.0:
            self.classifier.add_module(name="dropout", module=nn.Dropout(p=model_cfg["cls_dropout"]))
        self.classifier.add_module(name="fc", module=nn.Linear(in_features=exp_channels, out_features=num_classes))
        # weight init
        self.apply(self.init_parameters)
    def _make_layer(self, input_channel, cfg: Dict) -> Tuple[nn.Sequential, int]:
        block_type = cfg.get("block_type", "mobilevit")
        if block_type.lower() == "mobilevit":
            return self._make_mit_layer(input_channel=input_channel, cfg=cfg)
        else:
            return self._make_mobilenet_layer(input_channel=input_channel, cfg=cfg)
    @staticmethod
    def _make_mobilenet_layer(input_channel: int, cfg: Dict) -> Tuple[nn.Sequential, int]:
        output_channels = cfg.get("out_channels")
        num_blocks = cfg.get("num_blocks", 2)
        expand_ratio = cfg.get("expand_ratio", 4)
        block = []
        for i in range(num_blocks):
            stride = cfg.get("stride", 1) if i == 0 else 1
            layer = InvertedResidual(
                in_channels=input_channel,
                out_channels=output_channels,
                stride=stride,
                expand_ratio=expand_ratio
            )
            block.append(layer)
            input_channel = output_channels
        return nn.Sequential(*block), input_channel
    @staticmethod
    def _make_mit_layer(input_channel: int, cfg: Dict) -> [nn.Sequential, int]:
        stride = cfg.get("stride", 1)
        block = []
        if stride == 2:
            layer = InvertedResidual(
                in_channels=input_channel,
                out_channels=cfg.get("out_channels"),
                stride=stride,
                expand_ratio=cfg.get("mv_expand_ratio", 4)
            )
            block.append(layer)
            input_channel = cfg.get("out_channels")
        transformer_dim = cfg["transformer_channels"]
        ffn_dim = cfg.get("ffn_dim")
        num_heads = cfg.get("num_heads", 4)
        head_dim = transformer_dim // num_heads
        if transformer_dim % head_dim != 0:
            raise ValueError("Transformer input dimension should be divisible by head dimension. "
                             "Got {} and {}.".format(transformer_dim, head_dim))
        block.append(MobileViTBlock(
            in_channels=input_channel,
            transformer_dim=transformer_dim,
            ffn_dim=ffn_dim,
            n_transformer_blocks=cfg.get("transformer_blocks", 1),
            patch_h=cfg.get("patch_h", 2),
            patch_w=cfg.get("patch_w", 2),
            dropout=cfg.get("dropout", 0.1),
            ffn_dropout=cfg.get("ffn_dropout", 0.0),
            attn_dropout=cfg.get("attn_dropout", 0.1),
            head_dim=head_dim,
            conv_ksize=3
        ))
        return nn.Sequential(*block), input_channel
    @staticmethod
    def init_parameters(m):
        if isinstance(m, nn.Conv2d):
            if m.weight is not None:
                nn.init.kaiming_normal_(m.weight, mode="fan_out")
            if m.bias is not None:
                nn.init.zeros_(m.bias)
        elif isinstance(m, (nn.LayerNorm, nn.BatchNorm2d)):
            if m.weight is not None:
                nn.init.ones_(m.weight)
            if m.bias is not None:
                nn.init.zeros_(m.bias)
        elif isinstance(m, (nn.Linear,)):
            if m.weight is not None:
                nn.init.trunc_normal_(m.weight, mean=0.0, std=0.02)
            if m.bias is not None:
                nn.init.zeros_(m.bias)
        else:
            pass
    def forward(self, x: Tensor) -> Tensor:
        x = self.conv_1(x)
        x = self.layer_1(x)
        x = self.layer_2(x)
        x = self.layer_3(x)
        x = self.layer_4(x)
        x = self.layer_5(x)
        x = self.conv_1x1_exp(x)
        x = self.classifier(x)
        return x
 def mobile_vit_xx_small(num_classes: int = 1000):
    # pretrain weight link
    # https://docs-assets.developer.apple.com/ml-research/models/cvnets/classification/mobilevit_xxs.pt
    config = get_config("xx_small")
    m = MobileViT(config, num_classes=num_classes)
    return m
 def mobile_vit_x_small(num_classes: int = 1000):
    # pretrain weight link
    # https://docs-assets.developer.apple.com/ml-research/models/cvnets/classification/mobilevit_xs.pt
    config = get_config("x_small")
    m = MobileViT(config, num_classes=num_classes)
    return m
 def mobile_vit_small(num_classes: int = 1000):
    # pretrain weight link
    # https://docs-assets.developer.apple.com/ml-research/models/cvnets/classification/mobilevit_s.pt
    config = get_config("small")
    m = MobileViT(config, num_classes=num_classes)
    return m
--- a/SkinDisease/model_config.py
+++ b/SkinDisease/model_config.py
@ -0,0 +1,176 @@
 def get_config(mode: str = "xxs") -> dict:
    if mode == "xx_small":
        mv2_exp_mult = 2
        config = {
            "layer1": {
                "out_channels": 16,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 1,
                "stride": 1,
                "block_type": "mv2",
            },
            "layer2": {
                "out_channels": 24,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 3,
                "stride": 2,
                "block_type": "mv2",
            },
            "layer3": {  # 28x28
                "out_channels": 48,
                "transformer_channels": 64,
                "ffn_dim": 128,
                "transformer_blocks": 2,
                "patch_h": 2,  # 8,
                "patch_w": 2,  # 8,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer4": {  # 14x14
                "out_channels": 64,
                "transformer_channels": 80,
                "ffn_dim": 160,
                "transformer_blocks": 4,
                "patch_h": 2,  # 4,
                "patch_w": 2,  # 4,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer5": {  # 7x7
                "out_channels": 80,
                "transformer_channels": 96,
                "ffn_dim": 192,
                "transformer_blocks": 3,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "last_layer_exp_factor": 4,
            "cls_dropout": 0.1
        }
    elif mode == "x_small":
        mv2_exp_mult = 4
        config = {
            "layer1": {
                "out_channels": 32,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 1,
                "stride": 1,
                "block_type": "mv2",
            },
            "layer2": {
                "out_channels": 48,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 3,
                "stride": 2,
                "block_type": "mv2",
            },
            "layer3": {  # 28x28
                "out_channels": 64,
                "transformer_channels": 96,
                "ffn_dim": 192,
                "transformer_blocks": 2,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer4": {  # 14x14
                "out_channels": 80,
                "transformer_channels": 120,
                "ffn_dim": 240,
                "transformer_blocks": 4,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer5": {  # 7x7
                "out_channels": 96,
                "transformer_channels": 144,
                "ffn_dim": 288,
                "transformer_blocks": 3,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "last_layer_exp_factor": 4,
            "cls_dropout": 0.1
        }
    elif mode == "small":
        mv2_exp_mult = 4
        config = {
            "layer1": {
                "out_channels": 32,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 1,
                "stride": 1,
                "block_type": "mv2",
            },
            "layer2": {
                "out_channels": 64,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 3,
                "stride": 2,
                "block_type": "mv2",
            },
            "layer3": {  # 28x28
                "out_channels": 96,
                "transformer_channels": 144,
                "ffn_dim": 288,
                "transformer_blocks": 2,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer4": {  # 14x14
                "out_channels": 128,
                "transformer_channels": 192,
                "ffn_dim": 384,
                "transformer_blocks": 4,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer5": {  # 7x7
                "out_channels": 160,
                "transformer_channels": 240,
                "ffn_dim": 480,
                "transformer_blocks": 3,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "last_layer_exp_factor": 4,
            "cls_dropout": 0.1
        }
    else:
        raise NotImplementedError
    for k in ["layer1", "layer2", "layer3", "layer4", "layer5"]:
        config[k].update({"dropout": 0.1, "ffn_dropout": 0.0, "attn_dropout": 0.0})
    return config
--- a/SkinDisease/my_dataset.py
+++ b/SkinDisease/my_dataset.py
@ -0,0 +1,37 @@
 from PIL import Image
 import torch
 from torch.utils.data import Dataset
 class MyDataSet(Dataset):
    """自定义数据集"""
    def __init__(self, images_path: list, images_class: list, transform=None):
        self.images_path = images_path
        self.images_class = images_class
        self.transform = transform
    def __len__(self):
        return len(self.images_path)
    def __getitem__(self, item):
        img = Image.open(self.images_path[item])
        # RGB为彩色图片，L为灰度图片
        if img.mode != 'RGB':
            raise ValueError("image: {} isn't RGB mode.".format(self.images_path[item]))
        label = self.images_class[item]
        if self.transform is not None:
            img = self.transform(img)
        return img, label
    @staticmethod
    def collate_fn(batch):
        # 官方实现的default_collate可以参考
        # https://github.com/pytorch/pytorch/blob/67b7e751e6b5931a9f45274653f4f653a4e6cdf6/torch/utils/data/_utils/collate.py
        images, labels = tuple(zip(*batch))
        images = torch.stack(images, dim=0)
        labels = torch.as_tensor(labels)
        return images, labels
--- a/SkinDisease/predict.py
+++ b/SkinDisease/predict.py
@ -0,0 +1,64 @@
 import os
 import json
 import torch
 from PIL import Image
 from torchvision import transforms
 import matplotlib.pyplot as plt
 from model import mobile_vit_small as create_model
 os.environ['KMP_DUPLICATE_LIB_OK'] = 'True'
 #设置plt支持中文
 plt.rcParams['font.sans-serif'] = ['SimHei']
 def main():
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    img_size = 224
    data_transform = transforms.Compose(
        [transforms.Resize(int(img_size * 1.14)),
         transforms.CenterCrop(img_size),
         transforms.ToTensor(),
         transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])
    # load image
    img_path = r"E:\Download\data\train\Acne and Rosacea Photos\acne-closed-comedo-8.jpg"
    assert os.path.exists(img_path), "file: '{}' dose not exist.".format(img_path)
    img = Image.open(img_path)
    plt.imshow(img)
    # [N, C, H, W]
    img = data_transform(img)
    # expand batch dimension
    img = torch.unsqueeze(img, dim=0)
    # read class_indict
    json_path = './class_indices.json'
    assert os.path.exists(json_path), "file: '{}' dose not exist.".format(json_path)
    with open(json_path, "r",encoding="utf-8") as f:
        class_indict = json.load(f)
    # create model
    model = create_model(num_classes=24).to(device)
    # load model weights
    model_weight_path = "./best300_model_0.7302241690286009.pth"
    model.load_state_dict(torch.load(model_weight_path, map_location=device))
    model.eval()
    with torch.no_grad():
        # predict class
        output = torch.squeeze(model(img.to(device))).cpu()
        predict = torch.softmax(output, dim=0)
        predict_cla = torch.argmax(predict).numpy()
    print_res = "class: {}   prob: {:.3}".format(class_indict[str(predict_cla)],
                                                 predict[predict_cla].numpy())
    plt.title(print_res)
    for i in range(len(predict)):
        print("class: {:10}   prob: {:.3}".format(class_indict[str(i)],
                                                  predict[i].numpy()))
    plt.show()
 if __name__ == '__main__':
    main()
--- a/SkinDisease/predict_api.py
+++ b/SkinDisease/predict_api.py
@ -0,0 +1,90 @@
 import os
 import json
 import uuid
 import torch
 from PIL import Image
 from torchvision import transforms
 from model import mobile_vit_small as create_model
 class ImagePredictor:
    def __init__(self, model_path, class_indices_path, img_size=224):
        self.device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
        self.img_size = img_size
        self.data_transform = transforms.Compose([
            transforms.Resize(int(self.img_size * 1.14)),
            transforms.CenterCrop(self.img_size),
            transforms.ToTensor(),
            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
        # Load class indices
        with open(class_indices_path, "r",encoding="utf-8") as f:
            self.class_indict = json.load(f)
        # Load model
        self.model = self.load_model(model_path)
    def load_model(self, model_path):
        model = create_model(num_classes=24).to(self.device)
        model.load_state_dict(torch.load(model_path, map_location=self.device))
        model.eval()
        return model
    def predict_img(self, image_path):
        # Load and transform image
        assert os.path.exists(image_path), f"file: '{image_path}' does not exist."
        img = Image.open(image_path).convert('RGB')
        img = self.data_transform(img)
        img = torch.unsqueeze(img, dim=0)
        # Predict class
        with torch.no_grad():
            output = torch.squeeze(self.model(img.to(self.device))).cpu()
            probabilities = torch.softmax(output, dim=0)
            top_prob, top_catid = torch.topk(probabilities, 5)
        # Top 5 results
        top5 = []
        for i in range(top_prob.size(0)):
            top5.append({
                "name": self.class_indict[str(top_catid[i].item())],
                "score": top_prob[i].item(),
                "label": top_catid[i].item()
            })
            # Results dictionary
        results = {"result": top5, "log_id": str(uuid.uuid1())}
        return results
    def predict(self, np_image):
        # Convert numpy image to PIL image
        img = Image.fromarray(np_image).convert('RGB')
        # Transform image
        img = self.data_transform(img)
        img = torch.unsqueeze(img, dim=0)
        # Predict class
        with torch.no_grad():
            output = torch.squeeze(self.model(img.to(self.device))).cpu()
            probabilities = torch.softmax(output, dim=0)
            top_prob, top_catid = torch.topk(probabilities, 1)
        # Top 5 results
        top5 = []
        for i in range(top_prob.size(0)):
            top5.append({
                "name": self.class_indict[str(top_catid[i].item())],
                "score": top_prob[i].item(),
                "label": top_catid[i].item()
            })
        # Results dictionary
        results = {"result": top5, "log_id": str(uuid.uuid1())}
        return results
 # Example usage:
 # predictor = ImagePredictor(model_path="./weights/best_model.pth", class_indices_path="./class_indices.json")
 # result = predictor.predict("../tulip.jpg")
 # print(result)
--- a/SkinDisease/train.py
+++ b/SkinDisease/train.py
@ -0,0 +1,135 @@
 import os
 import argparse
 import torch
 import torch.optim as optim
 from torch.utils.tensorboard import SummaryWriter
 from torchvision import transforms
 from my_dataset import MyDataSet
 from model import mobile_vit_xx_small as create_model
 from utils import read_split_data, train_one_epoch, evaluate
 def main(args):
    device = torch.device(args.device if torch.cuda.is_available() else "cpu")
    if os.path.exists("./weights") is False:
        os.makedirs("./weights")
    tb_writer = SummaryWriter()
    train_images_path, train_images_label, val_images_path, val_images_label = read_split_data(args.data_path)
    img_size = 224
    data_transform = {
        "train": transforms.Compose([transforms.RandomResizedCrop(img_size),
                                     transforms.RandomHorizontalFlip(),
                                     transforms.ToTensor(),
                                     transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])]),
        "val": transforms.Compose([transforms.Resize(int(img_size * 1.143)),
                                   transforms.CenterCrop(img_size),
                                   transforms.ToTensor(),
                                   transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])}
    # 实例化训练数据集
    train_dataset = MyDataSet(images_path=train_images_path,
                              images_class=train_images_label,
                              transform=data_transform["train"])
    # 实例化验证数据集
    val_dataset = MyDataSet(images_path=val_images_path,
                            images_class=val_images_label,
                            transform=data_transform["val"])
    batch_size = args.batch_size
    nw = min([os.cpu_count(), batch_size if batch_size > 1 else 0, 8])  # number of workers
    print('Using {} dataloader workers every process'.format(nw))
    train_loader = torch.utils.data.DataLoader(train_dataset,
                                               batch_size=batch_size,
                                               shuffle=True,
                                               pin_memory=True,
                                               num_workers=nw,
                                               collate_fn=train_dataset.collate_fn)
    val_loader = torch.utils.data.DataLoader(val_dataset,
                                             batch_size=batch_size,
                                             shuffle=False,
                                             pin_memory=True,
                                             num_workers=nw,
                                             collate_fn=val_dataset.collate_fn)
    model = create_model(num_classes=args.num_classes).to(device)
    if args.weights != "":
        assert os.path.exists(args.weights), "weights file: '{}' not exist.".format(args.weights)
        weights_dict = torch.load(args.weights, map_location=device)
        weights_dict = weights_dict["model"] if "model" in weights_dict else weights_dict
        # 删除有关分类类别的权重
        for k in list(weights_dict.keys()):
            if "classifier" in k:
                del weights_dict[k]
        print(model.load_state_dict(weights_dict, strict=False))
    if args.freeze_layers:
        for name, para in model.named_parameters():
            # 除head外，其他权重全部冻结
            if "classifier" not in name:
                para.requires_grad_(False)
            else:
                print("training {}".format(name))
    pg = [p for p in model.parameters() if p.requires_grad]
    optimizer = optim.AdamW(pg, lr=args.lr, weight_decay=1E-2)
    best_acc = 0.
    for epoch in range(args.epochs):
        # train
        train_loss, train_acc = train_one_epoch(model=model,
                                                optimizer=optimizer,
                                                data_loader=train_loader,
                                                device=device,
                                                epoch=epoch)
        # validate
        val_loss, val_acc = evaluate(model=model,
                                     data_loader=val_loader,
                                     device=device,
                                     epoch=epoch)
        tags = ["train_loss", "train_acc", "val_loss", "val_acc", "learning_rate"]
        tb_writer.add_scalar(tags[0], train_loss, epoch)
        tb_writer.add_scalar(tags[1], train_acc, epoch)
        tb_writer.add_scalar(tags[2], val_loss, epoch)
        tb_writer.add_scalar(tags[3], val_acc, epoch)
        tb_writer.add_scalar(tags[4], optimizer.param_groups[0]["lr"], epoch)
        if val_acc > best_acc:
            best_acc = val_acc
            torch.save(model.state_dict(), "./weights/best_model.pth")
        torch.save(model.state_dict(), "./weights/latest_model.pth")
 if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('--num_classes', type=int, default=5)
    parser.add_argument('--epochs', type=int, default=10)
    parser.add_argument('--batch-size', type=int, default=8)
    parser.add_argument('--lr', type=float, default=0.0002)
    # 数据集所在根目录
    # https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz
    parser.add_argument('--data-path', type=str,
                        default="/data/flower_photos")
    # 预训练权重路径，如果不想载入就设置为空字符
    parser.add_argument('--weights', type=str, default='./mobilevit_xxs.pt',
                        help='initial weights path')
    # 是否冻结权重
    parser.add_argument('--freeze-layers', type=bool, default=False)
    parser.add_argument('--device', default='cuda:0', help='device id (i.e. 0 or 0,1 or cpu)')
    opt = parser.parse_args()
    main(opt)
--- a/SkinDisease/transformer.py
+++ b/SkinDisease/transformer.py
@ -0,0 +1,155 @@
 from typing import Optional
 import torch
 import torch.nn as nn
 from torch import Tensor
 class MultiHeadAttention(nn.Module):
    """
    This layer applies a multi-head self- or cross-attention as described in
    `Attention is all you need <https://arxiv.org/abs/1706.03762>`_ paper
    Args:
        embed_dim (int): :math:`C_{in}` from an expected input of size :math:`(N, P, C_{in})`
        num_heads (int): Number of heads in multi-head attention
        attn_dropout (float): Attention dropout. Default: 0.0
        bias (bool): Use bias or not. Default: ``True``
    Shape:
        - Input: :math:`(N, P, C_{in})` where :math:`N` is batch size, :math:`P` is number of patches,
        and :math:`C_{in}` is input embedding dim
        - Output: same shape as the input
    """
    def __init__(
        self,
        embed_dim: int,
        num_heads: int,
        attn_dropout: float = 0.0,
        bias: bool = True,
        *args,
        **kwargs
    ) -> None:
        super().__init__()
        if embed_dim % num_heads != 0:
            raise ValueError(
                "Embedding dim must be divisible by number of heads in {}. Got: embed_dim={} and num_heads={}".format(
                    self.__class__.__name__, embed_dim, num_heads
                )
            )
        self.qkv_proj = nn.Linear(in_features=embed_dim, out_features=3 * embed_dim, bias=bias)
        self.attn_dropout = nn.Dropout(p=attn_dropout)
        self.out_proj = nn.Linear(in_features=embed_dim, out_features=embed_dim, bias=bias)
        self.head_dim = embed_dim // num_heads
        self.scaling = self.head_dim ** -0.5
        self.softmax = nn.Softmax(dim=-1)
        self.num_heads = num_heads
        self.embed_dim = embed_dim
    def forward(self, x_q: Tensor) -> Tensor:
        # [N, P, C]
        b_sz, n_patches, in_channels = x_q.shape
        # self-attention
        # [N, P, C] -> [N, P, 3C] -> [N, P, 3, h, c] where C = hc
        qkv = self.qkv_proj(x_q).reshape(b_sz, n_patches, 3, self.num_heads, -1)
        # [N, P, 3, h, c] -> [N, h, 3, P, C]
        qkv = qkv.transpose(1, 3).contiguous()
        # [N, h, 3, P, C] -> [N, h, P, C] x 3
        query, key, value = qkv[:, :, 0], qkv[:, :, 1], qkv[:, :, 2]
        query = query * self.scaling
        # [N h, P, c] -> [N, h, c, P]
        key = key.transpose(-1, -2)
        # QK^T
        # [N, h, P, c] x [N, h, c, P] -> [N, h, P, P]
        attn = torch.matmul(query, key)
        attn = self.softmax(attn)
        attn = self.attn_dropout(attn)
        # weighted sum
        # [N, h, P, P] x [N, h, P, c] -> [N, h, P, c]
        out = torch.matmul(attn, value)
        # [N, h, P, c] -> [N, P, h, c] -> [N, P, C]
        out = out.transpose(1, 2).reshape(b_sz, n_patches, -1)
        out = self.out_proj(out)
        return out
 class TransformerEncoder(nn.Module):
    """
    This class defines the pre-norm `Transformer encoder <https://arxiv.org/abs/1706.03762>`_
    Args:
        embed_dim (int): :math:`C_{in}` from an expected input of size :math:`(N, P, C_{in})`
        ffn_latent_dim (int): Inner dimension of the FFN
        num_heads (int) : Number of heads in multi-head attention. Default: 8
        attn_dropout (float): Dropout rate for attention in multi-head attention. Default: 0.0
        dropout (float): Dropout rate. Default: 0.0
        ffn_dropout (float): Dropout between FFN layers. Default: 0.0
    Shape:
        - Input: :math:`(N, P, C_{in})` where :math:`N` is batch size, :math:`P` is number of patches,
        and :math:`C_{in}` is input embedding dim
        - Output: same shape as the input
    """
    def __init__(
        self,
        embed_dim: int,
        ffn_latent_dim: int,
        num_heads: Optional[int] = 8,
        attn_dropout: Optional[float] = 0.0,
        dropout: Optional[float] = 0.0,
        ffn_dropout: Optional[float] = 0.0,
        *args,
        **kwargs
    ) -> None:
        super().__init__()
        attn_unit = MultiHeadAttention(
            embed_dim,
            num_heads,
            attn_dropout=attn_dropout,
            bias=True
        )
        self.pre_norm_mha = nn.Sequential(
            nn.LayerNorm(embed_dim),
            attn_unit,
            nn.Dropout(p=dropout)
        )
        self.pre_norm_ffn = nn.Sequential(
            nn.LayerNorm(embed_dim),
            nn.Linear(in_features=embed_dim, out_features=ffn_latent_dim, bias=True),
            nn.SiLU(),
            nn.Dropout(p=ffn_dropout),
            nn.Linear(in_features=ffn_latent_dim, out_features=embed_dim, bias=True),
            nn.Dropout(p=dropout)
        )
        self.embed_dim = embed_dim
        self.ffn_dim = ffn_latent_dim
        self.ffn_dropout = ffn_dropout
        self.std_dropout = dropout
    def forward(self, x: Tensor) -> Tensor:
        # multi-head attention
        res = x
        x = self.pre_norm_mha(x)
        x = x + res
        # feed forward network
        x = x + self.pre_norm_ffn(x)
        return x
--- a/SkinDisease/unfold_test.py
+++ b/SkinDisease/unfold_test.py
@ -0,0 +1,56 @@
 import time
 import torch
 batch_size = 8
 in_channels = 32
 patch_h = 2
 patch_w = 2
 num_patch_h = 16
 num_patch_w = 16
 num_patches = num_patch_h * num_patch_w
 patch_area = patch_h * patch_w
 def official(x: torch.Tensor):
    # [B, C, H, W] -> [B * C * n_h, p_h, n_w, p_w]
    x = x.reshape(batch_size * in_channels * num_patch_h, patch_h, num_patch_w, patch_w)
    # [B * C * n_h, p_h, n_w, p_w] -> [B * C * n_h, n_w, p_h, p_w]
    x = x.transpose(1, 2)
    # [B * C * n_h, n_w, p_h, p_w] -> [B, C, N, P] where P = p_h * p_w and N = n_h * n_w
    x = x.reshape(batch_size, in_channels, num_patches, patch_area)
    # [B, C, N, P] -> [B, P, N, C]
    x = x.transpose(1, 3)
    # [B, P, N, C] -> [BP, N, C]
    x = x.reshape(batch_size * patch_area, num_patches, -1)
    return x
 def my_self(x: torch.Tensor):
    # [B, C, H, W] -> [B, C, n_h, p_h, n_w, p_w]
    x = x.reshape(batch_size, in_channels, num_patch_h, patch_h, num_patch_w, patch_w)
    # [B, C, n_h, p_h, n_w, p_w] -> [B, C, n_h, n_w, p_h, p_w]
    x = x.transpose(3, 4)
    # [B, C, n_h, n_w, p_h, p_w] -> [B, C, N, P] where P = p_h * p_w and N = n_h * n_w
    x = x.reshape(batch_size, in_channels, num_patches, patch_area)
    # [B, C, N, P] -> [B, P, N, C]
    x = x.transpose(1, 3)
    # [B, P, N, C] -> [BP, N, C]
    x = x.reshape(batch_size * patch_area, num_patches, -1)
    return x
 if __name__ == '__main__':
    t = torch.randn(batch_size, in_channels, num_patch_h * patch_h, num_patch_w * patch_w)
    print(torch.equal(official(t), my_self(t)))
    t1 = time.time()
    for _ in range(1000):
        official(t)
    print(f"official time: {time.time() - t1}")
    t1 = time.time()
    for _ in range(1000):
        my_self(t)
    print(f"self time: {time.time() - t1}")
--- a/SkinDisease/utils.py
+++ b/SkinDisease/utils.py
@ -0,0 +1,179 @@
 import os
 import sys
 import json
 import pickle
 import random
 import torch
 from tqdm import tqdm
 import matplotlib.pyplot as plt
 def read_split_data(root: str, val_rate: float = 0.2):
    random.seed(0)  # 保证随机结果可复现
    assert os.path.exists(root), "dataset root: {} does not exist.".format(root)
    # 遍历文件夹，一个文件夹对应一个类别
    flower_class = [cla for cla in os.listdir(root) if os.path.isdir(os.path.join(root, cla))]
    # 排序，保证各平台顺序一致
    flower_class.sort()
    # 生成类别名称以及对应的数字索引
    class_indices = dict((k, v) for v, k in enumerate(flower_class))
    json_str = json.dumps(dict((val, key) for key, val in class_indices.items()), indent=4)
    with open('class_indices.json', 'w') as json_file:
        json_file.write(json_str)
    train_images_path = []  # 存储训练集的所有图片路径
    train_images_label = []  # 存储训练集图片对应索引信息
    val_images_path = []  # 存储验证集的所有图片路径
    val_images_label = []  # 存储验证集图片对应索引信息
    every_class_num = []  # 存储每个类别的样本总数
    supported = [".jpg", ".JPG", ".png", ".PNG"]  # 支持的文件后缀类型
    # 遍历每个文件夹下的文件
    for cla in flower_class:
        cla_path = os.path.join(root, cla)
        # 遍历获取supported支持的所有文件路径
        images = [os.path.join(root, cla, i) for i in os.listdir(cla_path)
                  if os.path.splitext(i)[-1] in supported]
        # 排序，保证各平台顺序一致
        images.sort()
        # 获取该类别对应的索引
        image_class = class_indices[cla]
        # 记录该类别的样本数量
        every_class_num.append(len(images))
        # 按比例随机采样验证样本
        val_path = random.sample(images, k=int(len(images) * val_rate))
        for img_path in images:
            if img_path in val_path:  # 如果该路径在采样的验证集样本中则存入验证集
                val_images_path.append(img_path)
                val_images_label.append(image_class)
            else:  # 否则存入训练集
                train_images_path.append(img_path)
                train_images_label.append(image_class)
    print("{} images were found in the dataset.".format(sum(every_class_num)))
    print("{} images for training.".format(len(train_images_path)))
    print("{} images for validation.".format(len(val_images_path)))
    assert len(train_images_path) > 0, "number of training images must greater than 0."
    assert len(val_images_path) > 0, "number of validation images must greater than 0."
    plot_image = False
    if plot_image:
        # 绘制每种类别个数柱状图
        plt.bar(range(len(flower_class)), every_class_num, align='center')
        # 将横坐标0,1,2,3,4替换为相应的类别名称
        plt.xticks(range(len(flower_class)), flower_class)
        # 在柱状图上添加数值标签
        for i, v in enumerate(every_class_num):
            plt.text(x=i, y=v + 5, s=str(v), ha='center')
        # 设置x坐标
        plt.xlabel('image class')
        # 设置y坐标
        plt.ylabel('number of images')
        # 设置柱状图的标题
        plt.title('flower class distribution')
        plt.show()
    return train_images_path, train_images_label, val_images_path, val_images_label
 def plot_data_loader_image(data_loader):
    batch_size = data_loader.batch_size
    plot_num = min(batch_size, 4)
    json_path = './class_indices.json'
    assert os.path.exists(json_path), json_path + " does not exist."
    json_file = open(json_path, 'r')
    class_indices = json.load(json_file)
    for data in data_loader:
        images, labels = data
        for i in range(plot_num):
            # [C, H, W] -> [H, W, C]
            img = images[i].numpy().transpose(1, 2, 0)
            # 反Normalize操作
            img = (img * [0.229, 0.224, 0.225] + [0.485, 0.456, 0.406]) * 255
            label = labels[i].item()
            plt.subplot(1, plot_num, i+1)
            plt.xlabel(class_indices[str(label)])
            plt.xticks([])  # 去掉x轴的刻度
            plt.yticks([])  # 去掉y轴的刻度
            plt.imshow(img.astype('uint8'))
        plt.show()
 def write_pickle(list_info: list, file_name: str):
    with open(file_name, 'wb') as f:
        pickle.dump(list_info, f)
 def read_pickle(file_name: str) -> list:
    with open(file_name, 'rb') as f:
        info_list = pickle.load(f)
        return info_list
 def train_one_epoch(model, optimizer, data_loader, device, epoch):
    model.train()
    loss_function = torch.nn.CrossEntropyLoss(label_smoothing=0.1)
    accu_loss = torch.zeros(1).to(device)  # 累计损失
    accu_num = torch.zeros(1).to(device)   # 累计预测正确的样本数
    optimizer.zero_grad()
    sample_num = 0
    data_loader = tqdm(data_loader, file=sys.stdout)
    for step, data in enumerate(data_loader):
        images, labels = data
        sample_num += images.shape[0]
        pred = model(images.to(device))
        pred_classes = torch.max(pred, dim=1)[1]
        accu_num += torch.eq(pred_classes, labels.to(device)).sum()
        loss = loss_function(pred, labels.to(device))
        loss.backward()
        accu_loss += loss.detach()
        data_loader.desc = "[train epoch {}] loss: {:.3f}, acc: {:.3f}".format(epoch,
                                                                               accu_loss.item() / (step + 1),
                                                                               accu_num.item() / sample_num)
        if not torch.isfinite(loss):
            print('WARNING: non-finite loss, ending training ', loss)
            sys.exit(1)
        optimizer.step()
        optimizer.zero_grad()
    return accu_loss.item() / (step + 1), accu_num.item() / sample_num
@torch.no_grad()
 def evaluate(model, data_loader, device, epoch):
    loss_function = torch.nn.CrossEntropyLoss()
    model.eval()
    accu_num = torch.zeros(1).to(device)   # 累计预测正确的样本数
    accu_loss = torch.zeros(1).to(device)  # 累计损失
    sample_num = 0
    data_loader = tqdm(data_loader, file=sys.stdout)
    for step, data in enumerate(data_loader):
        images, labels = data
        sample_num += images.shape[0]
        pred = model(images.to(device))
        pred_classes = torch.max(pred, dim=1)[1]
        accu_num += torch.eq(pred_classes, labels.to(device)).sum()
        loss = loss_function(pred, labels.to(device))
        accu_loss += loss
        data_loader.desc = "[valid epoch {}] loss: {:.3f}, acc: {:.3f}".format(epoch,
                                                                               accu_loss.item() / (step + 1),
                                                                               accu_num.item() / sample_num)
    return accu_loss.item() / (step + 1), accu_num.item() / sample_num
--- a/SkinDisease/video.py
+++ b/SkinDisease/video.py
@ -0,0 +1,51 @@
 import cv2
 import dlib
 import numpy as np
 from PIL import Image
 from predict_api import ImagePredictor
 # Initialize camera and face detector
 cap = cv2.VideoCapture(0)
 detector = dlib.get_frontal_face_detector()
 # Initialize ImagePredictor
 predictor = ImagePredictor(model_path="best300_model_0.7302241690286009.pth", class_indices_path="./class_indices.json")
 while True:
    # Capture frame-by-frame
    ret, frame = cap.read()
    # Convert the image from BGR color (which OpenCV uses) to RGB color
    rgb_image = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
    # Perform face detection
    faces = detector(rgb_image)
    # Loop through each face in this frame
    for rect in faces:
        # Get the bounding box coordinates
        x1, y1, x2, y2 = rect.left(), rect.top(), rect.right(), rect.bottom()
        # Crop the face from the frame
        face_image = rgb_image[y1:y2, x1:x2]
        # Use ImagePredictor to predict the class of this face
        result = predictor.predict(face_image)
        # Draw a rectangle around the face
        cv2.rectangle(frame, (x1, y1), (x2, y2), (0, 255, 0), 2)
        # Display the class name and score
        cv2.putText(frame, f"{result['result'][0]['name']}: {round(result['result'][0]['score'],4)}", (x1, y1-10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (36,255,12), 2)
    # Display the resulting frame
    cv2.imshow('Video', frame)
    # Exit loop if 'q' is pressed
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break
 # When everything is done, release the capture
 cap.release()
 cv2.destroyAllWindows()
--- a/SkinType/README.md
+++ b/SkinType/README.md
@ -0,0 +1,34 @@
 # 基于视觉的皮肤类型检测系统
 该项目是一个基于图像的皮肤类型检测系统。它使用MobileViT在皮肤图像数据集上进行训练,然后可以从摄像头输入的视频中检测人脸,并为每个检测到的人脸预测皮肤类型(干性、正常或油性)。
 ## 核心文件
 - `class_indices.json`: 包含皮肤类型标签和对应数值编码的映射。
 - `predict_api.py`: 包含图像预测模型的加载、预处理和推理逻辑。
 - `video.py`: 视频处理和可视化的主要脚本。
 - `best_model_'0.8998410174880763'.pth`: 在皮肤图像数据集上训练的模型权重文件。
 ## 使用方法
 1. 确保已安装所需的Python库,包括`opencv-python`、`torch`、`torchvision`、`Pillow`和`dlib`。
 2. 运行`video.py`脚本。
 3. 脚本将打开默认摄像头,开始人脸检测和皮肤类型预测。
 4. 检测到的人脸周围会用矩形框标注,并显示预测的皮肤类型和置信度分数。
 5. 按`q`键退出程序。
 ## 模型介绍
 该项目使用MobileViT作为基础模型,对皮肤图像数据集进行训练,以预测人脸图像的皮肤类型。模型输出包含3个值,分别对应干性、正常和油性皮肤类型的概率。
 ### 数据集介绍
 该项目使用的皮肤图像数据集来自Kaggle平台，数据集包含3152张标注了皮肤类型(干性、正常或油性)的人脸图像。
 ## 算法流程
 1. **人脸检测**: 使用Dlib库中的预训练人脸检测器在视频帧中检测人脸。
 2. **预处理**: 对检测到的人脸图像进行缩放、裁剪和标准化等预处理,以满足模型的输入要求。
 3. **推理**: 将预处理后的图像输入到预训练的Mobile-ViT模型中,获得不同皮肤类型的概率预测结果。
 4. **后处理**: 选取概率最高的类别作为最终预测结果。
 5. **可视化**: 在视频帧上绘制人脸矩形框,并显示预测的皮肤类型和置信度分数。
--- a/SkinType/best_model_'0.8998410174880763'.pth
+++ b/SkinType/best_model_'0.8998410174880763'.pth
--- a/SkinType/class_indices.json
+++ b/SkinType/class_indices.json
@ -0,0 +1,7 @@
 {
    "0": "Dry",
    "1": "Normal",
    "2": "Oily"
 }
--- a/SkinType/model.py
+++ b/SkinType/model.py
@ -0,0 +1,562 @@
 """
 original code from apple:
 https://github.com/apple/ml-cvnets/blob/main/cvnets/models/classification/mobilevit.py
 """
 from typing import Optional, Tuple, Union, Dict
 import math
 import torch
 import torch.nn as nn
 from torch import Tensor
 from torch.nn import functional as F
 from transformer import TransformerEncoder
 from model_config import get_config
 def make_divisible(
    v: Union[float, int],
    divisor: Optional[int] = 8,
    min_value: Optional[Union[float, int]] = None,
 ) -> Union[float, int]:
    """
    This function is taken from the original tf repo.
    It ensures that all layers have a channel number that is divisible by 8
    It can be seen here:
    https://github.com/tensorflow/models/blob/master/research/slim/nets/mobilenet/mobilenet.py
    :param v:
    :param divisor:
    :param min_value:
    :return:
    """
    if min_value is None:
        min_value = divisor
    new_v = max(min_value, int(v + divisor / 2) // divisor * divisor)
    # Make sure that round down does not go down by more than 10%.
    if new_v < 0.9 * v:
        new_v += divisor
    return new_v
 class ConvLayer(nn.Module):
    """
    Applies a 2D convolution over an input
    Args:
        in_channels (int): :math:`C_{in}` from an expected input of size :math:`(N, C_{in}, H_{in}, W_{in})`
        out_channels (int): :math:`C_{out}` from an expected output of size :math:`(N, C_{out}, H_{out}, W_{out})`
        kernel_size (Union[int, Tuple[int, int]]): Kernel size for convolution.
        stride (Union[int, Tuple[int, int]]): Stride for convolution. Default: 1
        groups (Optional[int]): Number of groups in convolution. Default: 1
        bias (Optional[bool]): Use bias. Default: ``False``
        use_norm (Optional[bool]): Use normalization layer after convolution. Default: ``True``
        use_act (Optional[bool]): Use activation layer after convolution (or convolution and normalization).
                                Default: ``True``
    Shape:
        - Input: :math:`(N, C_{in}, H_{in}, W_{in})`
        - Output: :math:`(N, C_{out}, H_{out}, W_{out})`
    .. note::
        For depth-wise convolution, `groups=C_{in}=C_{out}`.
    """
    def __init__(
        self,
        in_channels: int,
        out_channels: int,
        kernel_size: Union[int, Tuple[int, int]],
        stride: Optional[Union[int, Tuple[int, int]]] = 1,
        groups: Optional[int] = 1,
        bias: Optional[bool] = False,
        use_norm: Optional[bool] = True,
        use_act: Optional[bool] = True,
    ) -> None:
        super().__init__()
        if isinstance(kernel_size, int):
            kernel_size = (kernel_size, kernel_size)
        if isinstance(stride, int):
            stride = (stride, stride)
        assert isinstance(kernel_size, Tuple)
        assert isinstance(stride, Tuple)
        padding = (
            int((kernel_size[0] - 1) / 2),
            int((kernel_size[1] - 1) / 2),
        )
        block = nn.Sequential()
        conv_layer = nn.Conv2d(
            in_channels=in_channels,
            out_channels=out_channels,
            kernel_size=kernel_size,
            stride=stride,
            groups=groups,
            padding=padding,
            bias=bias
        )
        block.add_module(name="conv", module=conv_layer)
        if use_norm:
            norm_layer = nn.BatchNorm2d(num_features=out_channels, momentum=0.1)
            block.add_module(name="norm", module=norm_layer)
        if use_act:
            act_layer = nn.SiLU()
            block.add_module(name="act", module=act_layer)
        self.block = block
    def forward(self, x: Tensor) -> Tensor:
        return self.block(x)
 class InvertedResidual(nn.Module):
    """
    This class implements the inverted residual block, as described in `MobileNetv2 <https://arxiv.org/abs/1801.04381>`_ paper
    Args:
        in_channels (int): :math:`C_{in}` from an expected input of size :math:`(N, C_{in}, H_{in}, W_{in})`
        out_channels (int): :math:`C_{out}` from an expected output of size :math:`(N, C_{out}, H_{out}, W_{out)`
        stride (int): Use convolutions with a stride. Default: 1
        expand_ratio (Union[int, float]): Expand the input channels by this factor in depth-wise conv
        skip_connection (Optional[bool]): Use skip-connection. Default: True
    Shape:
        - Input: :math:`(N, C_{in}, H_{in}, W_{in})`
        - Output: :math:`(N, C_{out}, H_{out}, W_{out})`
    .. note::
        If `in_channels =! out_channels` and `stride > 1`, we set `skip_connection=False`
    """
    def __init__(
        self,
        in_channels: int,
        out_channels: int,
        stride: int,
        expand_ratio: Union[int, float],
        skip_connection: Optional[bool] = True,
    ) -> None:
        assert stride in [1, 2]
        hidden_dim = make_divisible(int(round(in_channels * expand_ratio)), 8)
        super().__init__()
        block = nn.Sequential()
        if expand_ratio != 1:
            block.add_module(
                name="exp_1x1",
                module=ConvLayer(
                    in_channels=in_channels,
                    out_channels=hidden_dim,
                    kernel_size=1
                ),
            )
        block.add_module(
            name="conv_3x3",
            module=ConvLayer(
                in_channels=hidden_dim,
                out_channels=hidden_dim,
                stride=stride,
                kernel_size=3,
                groups=hidden_dim
            ),
        )
        block.add_module(
            name="red_1x1",
            module=ConvLayer(
                in_channels=hidden_dim,
                out_channels=out_channels,
                kernel_size=1,
                use_act=False,
                use_norm=True,
            ),
        )
        self.block = block
        self.in_channels = in_channels
        self.out_channels = out_channels
        self.exp = expand_ratio
        self.stride = stride
        self.use_res_connect = (
            self.stride == 1 and in_channels == out_channels and skip_connection
        )
    def forward(self, x: Tensor, *args, **kwargs) -> Tensor:
        if self.use_res_connect:
            return x + self.block(x)
        else:
            return self.block(x)
 class MobileViTBlock(nn.Module):
    """
    This class defines the `MobileViT block <https://arxiv.org/abs/2110.02178?context=cs.LG>`_
    Args:
        opts: command line arguments
        in_channels (int): :math:`C_{in}` from an expected input of size :math:`(N, C_{in}, H, W)`
        transformer_dim (int): Input dimension to the transformer unit
        ffn_dim (int): Dimension of the FFN block
        n_transformer_blocks (int): Number of transformer blocks. Default: 2
        head_dim (int): Head dimension in the multi-head attention. Default: 32
        attn_dropout (float): Dropout in multi-head attention. Default: 0.0
        dropout (float): Dropout rate. Default: 0.0
        ffn_dropout (float): Dropout between FFN layers in transformer. Default: 0.0
        patch_h (int): Patch height for unfolding operation. Default: 8
        patch_w (int): Patch width for unfolding operation. Default: 8
        transformer_norm_layer (Optional[str]): Normalization layer in the transformer block. Default: layer_norm
        conv_ksize (int): Kernel size to learn local representations in MobileViT block. Default: 3
        no_fusion (Optional[bool]): Do not combine the input and output feature maps. Default: False
    """
    def __init__(
        self,
        in_channels: int,
        transformer_dim: int,
        ffn_dim: int,
        n_transformer_blocks: int = 2,
        head_dim: int = 32,
        attn_dropout: float = 0.0,
        dropout: float = 0.0,
        ffn_dropout: float = 0.0,
        patch_h: int = 8,
        patch_w: int = 8,
        conv_ksize: Optional[int] = 3,
        *args,
        **kwargs
    ) -> None:
        super().__init__()
        conv_3x3_in = ConvLayer(
            in_channels=in_channels,
            out_channels=in_channels,
            kernel_size=conv_ksize,
            stride=1
        )
        conv_1x1_in = ConvLayer(
            in_channels=in_channels,
            out_channels=transformer_dim,
            kernel_size=1,
            stride=1,
            use_norm=False,
            use_act=False
        )
        conv_1x1_out = ConvLayer(
            in_channels=transformer_dim,
            out_channels=in_channels,
            kernel_size=1,
            stride=1
        )
        conv_3x3_out = ConvLayer(
            in_channels=2 * in_channels,
            out_channels=in_channels,
            kernel_size=conv_ksize,
            stride=1
        )
        self.local_rep = nn.Sequential()
        self.local_rep.add_module(name="conv_3x3", module=conv_3x3_in)
        self.local_rep.add_module(name="conv_1x1", module=conv_1x1_in)
        assert transformer_dim % head_dim == 0
        num_heads = transformer_dim // head_dim
        global_rep = [
            TransformerEncoder(
                embed_dim=transformer_dim,
                ffn_latent_dim=ffn_dim,
                num_heads=num_heads,
                attn_dropout=attn_dropout,
                dropout=dropout,
                ffn_dropout=ffn_dropout
            )
            for _ in range(n_transformer_blocks)
        ]
        global_rep.append(nn.LayerNorm(transformer_dim))
        self.global_rep = nn.Sequential(*global_rep)
        self.conv_proj = conv_1x1_out
        self.fusion = conv_3x3_out
        self.patch_h = patch_h
        self.patch_w = patch_w
        self.patch_area = self.patch_w * self.patch_h
        self.cnn_in_dim = in_channels
        self.cnn_out_dim = transformer_dim
        self.n_heads = num_heads
        self.ffn_dim = ffn_dim
        self.dropout = dropout
        self.attn_dropout = attn_dropout
        self.ffn_dropout = ffn_dropout
        self.n_blocks = n_transformer_blocks
        self.conv_ksize = conv_ksize
    def unfolding(self, x: Tensor) -> Tuple[Tensor, Dict]:
        patch_w, patch_h = self.patch_w, self.patch_h
        patch_area = patch_w * patch_h
        batch_size, in_channels, orig_h, orig_w = x.shape
        new_h = int(math.ceil(orig_h / self.patch_h) * self.patch_h)
        new_w = int(math.ceil(orig_w / self.patch_w) * self.patch_w)
        interpolate = False
        if new_w != orig_w or new_h != orig_h:
            # Note: Padding can be done, but then it needs to be handled in attention function.
            x = F.interpolate(x, size=(new_h, new_w), mode="bilinear", align_corners=False)
            interpolate = True
        # number of patches along width and height
        num_patch_w = new_w // patch_w  # n_w
        num_patch_h = new_h // patch_h  # n_h
        num_patches = num_patch_h * num_patch_w  # N
        # [B, C, H, W] -> [B * C * n_h, p_h, n_w, p_w]
        x = x.reshape(batch_size * in_channels * num_patch_h, patch_h, num_patch_w, patch_w)
        # [B * C * n_h, p_h, n_w, p_w] -> [B * C * n_h, n_w, p_h, p_w]
        x = x.transpose(1, 2)
        # [B * C * n_h, n_w, p_h, p_w] -> [B, C, N, P] where P = p_h * p_w and N = n_h * n_w
        x = x.reshape(batch_size, in_channels, num_patches, patch_area)
        # [B, C, N, P] -> [B, P, N, C]
        x = x.transpose(1, 3)
        # [B, P, N, C] -> [BP, N, C]
        x = x.reshape(batch_size * patch_area, num_patches, -1)
        info_dict = {
            "orig_size": (orig_h, orig_w),
            "batch_size": batch_size,
            "interpolate": interpolate,
            "total_patches": num_patches,
            "num_patches_w": num_patch_w,
            "num_patches_h": num_patch_h,
        }
        return x, info_dict
    def folding(self, x: Tensor, info_dict: Dict) -> Tensor:
        n_dim = x.dim()
        assert n_dim == 3, "Tensor should be of shape BPxNxC. Got: {}".format(
            x.shape
        )
        # [BP, N, C] --> [B, P, N, C]
        x = x.contiguous().view(
            info_dict["batch_size"], self.patch_area, info_dict["total_patches"], -1
        )
        batch_size, pixels, num_patches, channels = x.size()
        num_patch_h = info_dict["num_patches_h"]
        num_patch_w = info_dict["num_patches_w"]
        # [B, P, N, C] -> [B, C, N, P]
        x = x.transpose(1, 3)
        # [B, C, N, P] -> [B*C*n_h, n_w, p_h, p_w]
        x = x.reshape(batch_size * channels * num_patch_h, num_patch_w, self.patch_h, self.patch_w)
        # [B*C*n_h, n_w, p_h, p_w] -> [B*C*n_h, p_h, n_w, p_w]
        x = x.transpose(1, 2)
        # [B*C*n_h, p_h, n_w, p_w] -> [B, C, H, W]
        x = x.reshape(batch_size, channels, num_patch_h * self.patch_h, num_patch_w * self.patch_w)
        if info_dict["interpolate"]:
            x = F.interpolate(
                x,
                size=info_dict["orig_size"],
                mode="bilinear",
                align_corners=False,
            )
        return x
    def forward(self, x: Tensor) -> Tensor:
        res = x
        fm = self.local_rep(x)
        # convert feature map to patches
        patches, info_dict = self.unfolding(fm)
        # learn global representations
        for transformer_layer in self.global_rep:
            patches = transformer_layer(patches)
        # [B x Patch x Patches x C] -> [B x C x Patches x Patch]
        fm = self.folding(x=patches, info_dict=info_dict)
        fm = self.conv_proj(fm)
        fm = self.fusion(torch.cat((res, fm), dim=1))
        return fm
 class MobileViT(nn.Module):
    """
    This class implements the `MobileViT architecture <https://arxiv.org/abs/2110.02178?context=cs.LG>`_
    """
    def __init__(self, model_cfg: Dict, num_classes: int = 1000):
        super().__init__()
        image_channels = 3
        out_channels = 16
        self.conv_1 = ConvLayer(
            in_channels=image_channels,
            out_channels=out_channels,
            kernel_size=3,
            stride=2
        )
        self.layer_1, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer1"])
        self.layer_2, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer2"])
        self.layer_3, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer3"])
        self.layer_4, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer4"])
        self.layer_5, out_channels = self._make_layer(input_channel=out_channels, cfg=model_cfg["layer5"])
        exp_channels = min(model_cfg["last_layer_exp_factor"] * out_channels, 960)
        self.conv_1x1_exp = ConvLayer(
            in_channels=out_channels,
            out_channels=exp_channels,
            kernel_size=1
        )
        self.classifier = nn.Sequential()
        self.classifier.add_module(name="global_pool", module=nn.AdaptiveAvgPool2d(1))
        self.classifier.add_module(name="flatten", module=nn.Flatten())
        if 0.0 < model_cfg["cls_dropout"] < 1.0:
            self.classifier.add_module(name="dropout", module=nn.Dropout(p=model_cfg["cls_dropout"]))
        self.classifier.add_module(name="fc", module=nn.Linear(in_features=exp_channels, out_features=num_classes))
        # weight init
        self.apply(self.init_parameters)
    def _make_layer(self, input_channel, cfg: Dict) -> Tuple[nn.Sequential, int]:
        block_type = cfg.get("block_type", "mobilevit")
        if block_type.lower() == "mobilevit":
            return self._make_mit_layer(input_channel=input_channel, cfg=cfg)
        else:
            return self._make_mobilenet_layer(input_channel=input_channel, cfg=cfg)
    @staticmethod
    def _make_mobilenet_layer(input_channel: int, cfg: Dict) -> Tuple[nn.Sequential, int]:
        output_channels = cfg.get("out_channels")
        num_blocks = cfg.get("num_blocks", 2)
        expand_ratio = cfg.get("expand_ratio", 4)
        block = []
        for i in range(num_blocks):
            stride = cfg.get("stride", 1) if i == 0 else 1
            layer = InvertedResidual(
                in_channels=input_channel,
                out_channels=output_channels,
                stride=stride,
                expand_ratio=expand_ratio
            )
            block.append(layer)
            input_channel = output_channels
        return nn.Sequential(*block), input_channel
    @staticmethod
    def _make_mit_layer(input_channel: int, cfg: Dict) -> [nn.Sequential, int]:
        stride = cfg.get("stride", 1)
        block = []
        if stride == 2:
            layer = InvertedResidual(
                in_channels=input_channel,
                out_channels=cfg.get("out_channels"),
                stride=stride,
                expand_ratio=cfg.get("mv_expand_ratio", 4)
            )
            block.append(layer)
            input_channel = cfg.get("out_channels")
        transformer_dim = cfg["transformer_channels"]
        ffn_dim = cfg.get("ffn_dim")
        num_heads = cfg.get("num_heads", 4)
        head_dim = transformer_dim // num_heads
        if transformer_dim % head_dim != 0:
            raise ValueError("Transformer input dimension should be divisible by head dimension. "
                             "Got {} and {}.".format(transformer_dim, head_dim))
        block.append(MobileViTBlock(
            in_channels=input_channel,
            transformer_dim=transformer_dim,
            ffn_dim=ffn_dim,
            n_transformer_blocks=cfg.get("transformer_blocks", 1),
            patch_h=cfg.get("patch_h", 2),
            patch_w=cfg.get("patch_w", 2),
            dropout=cfg.get("dropout", 0.1),
            ffn_dropout=cfg.get("ffn_dropout", 0.0),
            attn_dropout=cfg.get("attn_dropout", 0.1),
            head_dim=head_dim,
            conv_ksize=3
        ))
        return nn.Sequential(*block), input_channel
    @staticmethod
    def init_parameters(m):
        if isinstance(m, nn.Conv2d):
            if m.weight is not None:
                nn.init.kaiming_normal_(m.weight, mode="fan_out")
            if m.bias is not None:
                nn.init.zeros_(m.bias)
        elif isinstance(m, (nn.LayerNorm, nn.BatchNorm2d)):
            if m.weight is not None:
                nn.init.ones_(m.weight)
            if m.bias is not None:
                nn.init.zeros_(m.bias)
        elif isinstance(m, (nn.Linear,)):
            if m.weight is not None:
                nn.init.trunc_normal_(m.weight, mean=0.0, std=0.02)
            if m.bias is not None:
                nn.init.zeros_(m.bias)
        else:
            pass
    def forward(self, x: Tensor) -> Tensor:
        x = self.conv_1(x)
        x = self.layer_1(x)
        x = self.layer_2(x)
        x = self.layer_3(x)
        x = self.layer_4(x)
        x = self.layer_5(x)
        x = self.conv_1x1_exp(x)
        x = self.classifier(x)
        return x
 def mobile_vit_xx_small(num_classes: int = 1000):
    # pretrain weight link
    # https://docs-assets.developer.apple.com/ml-research/models/cvnets/classification/mobilevit_xxs.pt
    config = get_config("xx_small")
    m = MobileViT(config, num_classes=num_classes)
    return m
 def mobile_vit_x_small(num_classes: int = 1000):
    # pretrain weight link
    # https://docs-assets.developer.apple.com/ml-research/models/cvnets/classification/mobilevit_xs.pt
    config = get_config("x_small")
    m = MobileViT(config, num_classes=num_classes)
    return m
 def mobile_vit_small(num_classes: int = 1000):
    # pretrain weight link
    # https://docs-assets.developer.apple.com/ml-research/models/cvnets/classification/mobilevit_s.pt
    config = get_config("small")
    m = MobileViT(config, num_classes=num_classes)
    return m
--- a/SkinType/model_config.py
+++ b/SkinType/model_config.py
@ -0,0 +1,176 @@
 def get_config(mode: str = "xxs") -> dict:
    if mode == "xx_small":
        mv2_exp_mult = 2
        config = {
            "layer1": {
                "out_channels": 16,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 1,
                "stride": 1,
                "block_type": "mv2",
            },
            "layer2": {
                "out_channels": 24,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 3,
                "stride": 2,
                "block_type": "mv2",
            },
            "layer3": {  # 28x28
                "out_channels": 48,
                "transformer_channels": 64,
                "ffn_dim": 128,
                "transformer_blocks": 2,
                "patch_h": 2,  # 8,
                "patch_w": 2,  # 8,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer4": {  # 14x14
                "out_channels": 64,
                "transformer_channels": 80,
                "ffn_dim": 160,
                "transformer_blocks": 4,
                "patch_h": 2,  # 4,
                "patch_w": 2,  # 4,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer5": {  # 7x7
                "out_channels": 80,
                "transformer_channels": 96,
                "ffn_dim": 192,
                "transformer_blocks": 3,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "last_layer_exp_factor": 4,
            "cls_dropout": 0.1
        }
    elif mode == "x_small":
        mv2_exp_mult = 4
        config = {
            "layer1": {
                "out_channels": 32,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 1,
                "stride": 1,
                "block_type": "mv2",
            },
            "layer2": {
                "out_channels": 48,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 3,
                "stride": 2,
                "block_type": "mv2",
            },
            "layer3": {  # 28x28
                "out_channels": 64,
                "transformer_channels": 96,
                "ffn_dim": 192,
                "transformer_blocks": 2,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer4": {  # 14x14
                "out_channels": 80,
                "transformer_channels": 120,
                "ffn_dim": 240,
                "transformer_blocks": 4,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer5": {  # 7x7
                "out_channels": 96,
                "transformer_channels": 144,
                "ffn_dim": 288,
                "transformer_blocks": 3,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "last_layer_exp_factor": 4,
            "cls_dropout": 0.1
        }
    elif mode == "small":
        mv2_exp_mult = 4
        config = {
            "layer1": {
                "out_channels": 32,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 1,
                "stride": 1,
                "block_type": "mv2",
            },
            "layer2": {
                "out_channels": 64,
                "expand_ratio": mv2_exp_mult,
                "num_blocks": 3,
                "stride": 2,
                "block_type": "mv2",
            },
            "layer3": {  # 28x28
                "out_channels": 96,
                "transformer_channels": 144,
                "ffn_dim": 288,
                "transformer_blocks": 2,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer4": {  # 14x14
                "out_channels": 128,
                "transformer_channels": 192,
                "ffn_dim": 384,
                "transformer_blocks": 4,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "layer5": {  # 7x7
                "out_channels": 160,
                "transformer_channels": 240,
                "ffn_dim": 480,
                "transformer_blocks": 3,
                "patch_h": 2,
                "patch_w": 2,
                "stride": 2,
                "mv_expand_ratio": mv2_exp_mult,
                "num_heads": 4,
                "block_type": "mobilevit",
            },
            "last_layer_exp_factor": 4,
            "cls_dropout": 0.1
        }
    else:
        raise NotImplementedError
    for k in ["layer1", "layer2", "layer3", "layer4", "layer5"]:
        config[k].update({"dropout": 0.1, "ffn_dropout": 0.0, "attn_dropout": 0.0})
    return config
--- a/SkinType/my_dataset.py
+++ b/SkinType/my_dataset.py
@ -0,0 +1,37 @@
 from PIL import Image
 import torch
 from torch.utils.data import Dataset
 class MyDataSet(Dataset):
    """自定义数据集"""
    def __init__(self, images_path: list, images_class: list, transform=None):
        self.images_path = images_path
        self.images_class = images_class
        self.transform = transform
    def __len__(self):
        return len(self.images_path)
    def __getitem__(self, item):
        img = Image.open(self.images_path[item])
        # RGB为彩色图片，L为灰度图片
        if img.mode != 'RGB':
            raise ValueError("image: {} isn't RGB mode.".format(self.images_path[item]))
        label = self.images_class[item]
        if self.transform is not None:
            img = self.transform(img)
        return img, label
    @staticmethod
    def collate_fn(batch):
        # 官方实现的default_collate可以参考
        # https://github.com/pytorch/pytorch/blob/67b7e751e6b5931a9f45274653f4f653a4e6cdf6/torch/utils/data/_utils/collate.py
        images, labels = tuple(zip(*batch))
        images = torch.stack(images, dim=0)
        labels = torch.as_tensor(labels)
        return images, labels
--- a/SkinType/predict.py
+++ b/SkinType/predict.py
@ -0,0 +1,64 @@
 import os
 import json
 import torch
 from PIL import Image
 from torchvision import transforms
 import matplotlib.pyplot as plt
 from model import mobile_vit_small as create_model
 os.environ['KMP_DUPLICATE_LIB_OK'] = 'True'
 #设置plt支持中文
 plt.rcParams['font.sans-serif'] = ['SimHei']
 def main():
    device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
    img_size = 224
    data_transform = transforms.Compose(
        [transforms.Resize(int(img_size * 1.14)),
         transforms.CenterCrop(img_size),
         transforms.ToTensor(),
         transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])
    # load image
    img_path = r"E:\Download\data\train\Acne and Rosacea Photos\acne-closed-comedo-8.jpg"
    assert os.path.exists(img_path), "file: '{}' dose not exist.".format(img_path)
    img = Image.open(img_path)
    plt.imshow(img)
    # [N, C, H, W]
    img = data_transform(img)
    # expand batch dimension
    img = torch.unsqueeze(img, dim=0)
    # read class_indict
    json_path = './class_indices.json'
    assert os.path.exists(json_path), "file: '{}' dose not exist.".format(json_path)
    with open(json_path, "r",encoding="utf-8") as f:
        class_indict = json.load(f)
    # create model
    model = create_model(num_classes=24).to(device)
    # load model weights
    model_weight_path = "./best300_model_0.7302241690286009.pth"
    model.load_state_dict(torch.load(model_weight_path, map_location=device))
    model.eval()
    with torch.no_grad():
        # predict class
        output = torch.squeeze(model(img.to(device))).cpu()
        predict = torch.softmax(output, dim=0)
        predict_cla = torch.argmax(predict).numpy()
    print_res = "class: {}   prob: {:.3}".format(class_indict[str(predict_cla)],
                                                 predict[predict_cla].numpy())
    plt.title(print_res)
    for i in range(len(predict)):
        print("class: {:10}   prob: {:.3}".format(class_indict[str(i)],
                                                  predict[i].numpy()))
    plt.show()
 if __name__ == '__main__':
    main()
--- a/SkinType/predict_api.py
+++ b/SkinType/predict_api.py
@ -0,0 +1,90 @@
 import os
 import json
 import uuid
 import torch
 from PIL import Image
 from torchvision import transforms
 from model import mobile_vit_small as create_model
 class ImagePredictor:
    def __init__(self, model_path, class_indices_path, img_size=224):
        self.device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
        self.img_size = img_size
        self.data_transform = transforms.Compose([
            transforms.Resize(int(self.img_size * 1.14)),
            transforms.CenterCrop(self.img_size),
            transforms.ToTensor(),
            transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
        ])
        # Load class indices
        with open(class_indices_path, "r",encoding="utf-8") as f:
            self.class_indict = json.load(f)
        # Load model
        self.model = self.load_model(model_path)
    def load_model(self, model_path):
        model = create_model(num_classes=3).to(self.device)
        model.load_state_dict(torch.load(model_path, map_location=self.device))
        model.eval()
        return model
    def predict_img(self, image_path):
        # Load and transform image
        assert os.path.exists(image_path), f"file: '{image_path}' does not exist."
        img = Image.open(image_path).convert('RGB')
        img = self.data_transform(img)
        img = torch.unsqueeze(img, dim=0)
        # Predict class
        with torch.no_grad():
            output = torch.squeeze(self.model(img.to(self.device))).cpu()
            probabilities = torch.softmax(output, dim=0)
            top_prob, top_catid = torch.topk(probabilities, 5)
        # Top 5 results
        top5 = []
        for i in range(top_prob.size(0)):
            top5.append({
                "name": self.class_indict[str(top_catid[i].item())],
                "score": top_prob[i].item(),
                "label": top_catid[i].item()
            })
            # Results dictionary
        results = {"result": top5, "log_id": str(uuid.uuid1())}
        return results
    def predict(self, np_image):
        # Convert numpy image to PIL image
        img = Image.fromarray(np_image).convert('RGB')
        # Transform image
        img = self.data_transform(img)
        img = torch.unsqueeze(img, dim=0)
        # Predict class
        with torch.no_grad():
            output = torch.squeeze(self.model(img.to(self.device))).cpu()
            probabilities = torch.softmax(output, dim=0)
            top_prob, top_catid = torch.topk(probabilities, 1)
        # Top 5 results
        top5 = []
        for i in range(top_prob.size(0)):
            top5.append({
                "name": self.class_indict[str(top_catid[i].item())],
                "score": top_prob[i].item(),
                "label": top_catid[i].item()
            })
        # Results dictionary
        results = {"result": top5, "log_id": str(uuid.uuid1())}
        return results
 # Example usage:
 # predictor = ImagePredictor(model_path="./weights/best_model.pth", class_indices_path="./class_indices.json")
 # result = predictor.predict("../tulip.jpg")
 # print(result)
--- a/SkinType/train.py
+++ b/SkinType/train.py
@ -0,0 +1,135 @@
 import os
 import argparse
 import torch
 import torch.optim as optim
 from torch.utils.tensorboard import SummaryWriter
 from torchvision import transforms
 from my_dataset import MyDataSet
 from model import mobile_vit_xx_small as create_model
 from utils import read_split_data, train_one_epoch, evaluate
 def main(args):
    device = torch.device(args.device if torch.cuda.is_available() else "cpu")
    if os.path.exists("./weights") is False:
        os.makedirs("./weights")
    tb_writer = SummaryWriter()
    train_images_path, train_images_label, val_images_path, val_images_label = read_split_data(args.data_path)
    img_size = 224
    data_transform = {
        "train": transforms.Compose([transforms.RandomResizedCrop(img_size),
                                     transforms.RandomHorizontalFlip(),
                                     transforms.ToTensor(),
                                     transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])]),
        "val": transforms.Compose([transforms.Resize(int(img_size * 1.143)),
                                   transforms.CenterCrop(img_size),
                                   transforms.ToTensor(),
                                   transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])])}
    # 实例化训练数据集
    train_dataset = MyDataSet(images_path=train_images_path,
                              images_class=train_images_label,
                              transform=data_transform["train"])
    # 实例化验证数据集
    val_dataset = MyDataSet(images_path=val_images_path,
                            images_class=val_images_label,
                            transform=data_transform["val"])
    batch_size = args.batch_size
    nw = min([os.cpu_count(), batch_size if batch_size > 1 else 0, 8])  # number of workers
    print('Using {} dataloader workers every process'.format(nw))
    train_loader = torch.utils.data.DataLoader(train_dataset,
                                               batch_size=batch_size,
                                               shuffle=True,
                                               pin_memory=True,
                                               num_workers=nw,
                                               collate_fn=train_dataset.collate_fn)
    val_loader = torch.utils.data.DataLoader(val_dataset,
                                             batch_size=batch_size,
                                             shuffle=False,
                                             pin_memory=True,
                                             num_workers=nw,
                                             collate_fn=val_dataset.collate_fn)
    model = create_model(num_classes=args.num_classes).to(device)
    if args.weights != "":
        assert os.path.exists(args.weights), "weights file: '{}' not exist.".format(args.weights)
        weights_dict = torch.load(args.weights, map_location=device)
        weights_dict = weights_dict["model"] if "model" in weights_dict else weights_dict
        # 删除有关分类类别的权重
        for k in list(weights_dict.keys()):
            if "classifier" in k:
                del weights_dict[k]
        print(model.load_state_dict(weights_dict, strict=False))
    if args.freeze_layers:
        for name, para in model.named_parameters():
            # 除head外，其他权重全部冻结
            if "classifier" not in name:
                para.requires_grad_(False)
            else:
                print("training {}".format(name))
    pg = [p for p in model.parameters() if p.requires_grad]
    optimizer = optim.AdamW(pg, lr=args.lr, weight_decay=1E-2)
    best_acc = 0.
    for epoch in range(args.epochs):
        # train
        train_loss, train_acc = train_one_epoch(model=model,
                                                optimizer=optimizer,
                                                data_loader=train_loader,
                                                device=device,
                                                epoch=epoch)
        # validate
        val_loss, val_acc = evaluate(model=model,
                                     data_loader=val_loader,
                                     device=device,
                                     epoch=epoch)
        tags = ["train_loss", "train_acc", "val_loss", "val_acc", "learning_rate"]
        tb_writer.add_scalar(tags[0], train_loss, epoch)
        tb_writer.add_scalar(tags[1], train_acc, epoch)
        tb_writer.add_scalar(tags[2], val_loss, epoch)
        tb_writer.add_scalar(tags[3], val_acc, epoch)
        tb_writer.add_scalar(tags[4], optimizer.param_groups[0]["lr"], epoch)
        if val_acc > best_acc:
            best_acc = val_acc
            torch.save(model.state_dict(), "./weights/best_model.pth")
        torch.save(model.state_dict(), "./weights/latest_model.pth")
 if __name__ == '__main__':
    parser = argparse.ArgumentParser()
    parser.add_argument('--num_classes', type=int, default=5)
    parser.add_argument('--epochs', type=int, default=10)
    parser.add_argument('--batch-size', type=int, default=8)
    parser.add_argument('--lr', type=float, default=0.0002)
    # 数据集所在根目录
    # https://storage.googleapis.com/download.tensorflow.org/example_images/flower_photos.tgz
    parser.add_argument('--data-path', type=str,
                        default="/data/flower_photos")
    # 预训练权重路径，如果不想载入就设置为空字符
    parser.add_argument('--weights', type=str, default='./mobilevit_xxs.pt',
                        help='initial weights path')
    # 是否冻结权重
    parser.add_argument('--freeze-layers', type=bool, default=False)
    parser.add_argument('--device', default='cuda:0', help='device id (i.e. 0 or 0,1 or cpu)')
    opt = parser.parse_args()
    main(opt)
--- a/SkinType/transformer.py
+++ b/SkinType/transformer.py
@ -0,0 +1,155 @@
 from typing import Optional
 import torch
 import torch.nn as nn
 from torch import Tensor
 class MultiHeadAttention(nn.Module):
    """
    This layer applies a multi-head self- or cross-attention as described in
    `Attention is all you need <https://arxiv.org/abs/1706.03762>`_ paper
    Args:
        embed_dim (int): :math:`C_{in}` from an expected input of size :math:`(N, P, C_{in})`
        num_heads (int): Number of heads in multi-head attention
        attn_dropout (float): Attention dropout. Default: 0.0
        bias (bool): Use bias or not. Default: ``True``
    Shape:
        - Input: :math:`(N, P, C_{in})` where :math:`N` is batch size, :math:`P` is number of patches,
        and :math:`C_{in}` is input embedding dim
        - Output: same shape as the input
    """
    def __init__(
        self,
        embed_dim: int,
        num_heads: int,
        attn_dropout: float = 0.0,
        bias: bool = True,
        *args,
        **kwargs
    ) -> None:
        super().__init__()
        if embed_dim % num_heads != 0:
            raise ValueError(
                "Embedding dim must be divisible by number of heads in {}. Got: embed_dim={} and num_heads={}".format(
                    self.__class__.__name__, embed_dim, num_heads
                )
            )
        self.qkv_proj = nn.Linear(in_features=embed_dim, out_features=3 * embed_dim, bias=bias)
        self.attn_dropout = nn.Dropout(p=attn_dropout)
        self.out_proj = nn.Linear(in_features=embed_dim, out_features=embed_dim, bias=bias)
        self.head_dim = embed_dim // num_heads
        self.scaling = self.head_dim ** -0.5
        self.softmax = nn.Softmax(dim=-1)
        self.num_heads = num_heads
        self.embed_dim = embed_dim
    def forward(self, x_q: Tensor) -> Tensor:
        # [N, P, C]
        b_sz, n_patches, in_channels = x_q.shape
        # self-attention
        # [N, P, C] -> [N, P, 3C] -> [N, P, 3, h, c] where C = hc
        qkv = self.qkv_proj(x_q).reshape(b_sz, n_patches, 3, self.num_heads, -1)
        # [N, P, 3, h, c] -> [N, h, 3, P, C]
        qkv = qkv.transpose(1, 3).contiguous()
        # [N, h, 3, P, C] -> [N, h, P, C] x 3
        query, key, value = qkv[:, :, 0], qkv[:, :, 1], qkv[:, :, 2]
        query = query * self.scaling
        # [N h, P, c] -> [N, h, c, P]
        key = key.transpose(-1, -2)
        # QK^T
        # [N, h, P, c] x [N, h, c, P] -> [N, h, P, P]
        attn = torch.matmul(query, key)
        attn = self.softmax(attn)
        attn = self.attn_dropout(attn)
        # weighted sum
        # [N, h, P, P] x [N, h, P, c] -> [N, h, P, c]
        out = torch.matmul(attn, value)
        # [N, h, P, c] -> [N, P, h, c] -> [N, P, C]
        out = out.transpose(1, 2).reshape(b_sz, n_patches, -1)
        out = self.out_proj(out)
        return out
 class TransformerEncoder(nn.Module):
    """
    This class defines the pre-norm `Transformer encoder <https://arxiv.org/abs/1706.03762>`_
    Args:
        embed_dim (int): :math:`C_{in}` from an expected input of size :math:`(N, P, C_{in})`
        ffn_latent_dim (int): Inner dimension of the FFN
        num_heads (int) : Number of heads in multi-head attention. Default: 8
        attn_dropout (float): Dropout rate for attention in multi-head attention. Default: 0.0
        dropout (float): Dropout rate. Default: 0.0
        ffn_dropout (float): Dropout between FFN layers. Default: 0.0
    Shape:
        - Input: :math:`(N, P, C_{in})` where :math:`N` is batch size, :math:`P` is number of patches,
        and :math:`C_{in}` is input embedding dim
        - Output: same shape as the input
    """
    def __init__(
        self,
        embed_dim: int,
        ffn_latent_dim: int,
        num_heads: Optional[int] = 8,
        attn_dropout: Optional[float] = 0.0,
        dropout: Optional[float] = 0.0,
        ffn_dropout: Optional[float] = 0.0,
        *args,
        **kwargs
    ) -> None:
        super().__init__()
        attn_unit = MultiHeadAttention(
            embed_dim,
            num_heads,
            attn_dropout=attn_dropout,
            bias=True
        )
        self.pre_norm_mha = nn.Sequential(
            nn.LayerNorm(embed_dim),
            attn_unit,
            nn.Dropout(p=dropout)
        )
        self.pre_norm_ffn = nn.Sequential(
            nn.LayerNorm(embed_dim),
            nn.Linear(in_features=embed_dim, out_features=ffn_latent_dim, bias=True),
            nn.SiLU(),
            nn.Dropout(p=ffn_dropout),
            nn.Linear(in_features=ffn_latent_dim, out_features=embed_dim, bias=True),
            nn.Dropout(p=dropout)
        )
        self.embed_dim = embed_dim
        self.ffn_dim = ffn_latent_dim
        self.ffn_dropout = ffn_dropout
        self.std_dropout = dropout
    def forward(self, x: Tensor) -> Tensor:
        # multi-head attention
        res = x
        x = self.pre_norm_mha(x)
        x = x + res
        # feed forward network
        x = x + self.pre_norm_ffn(x)
        return x
--- a/SkinType/unfold_test.py
+++ b/SkinType/unfold_test.py
@ -0,0 +1,56 @@
 import time
 import torch
 batch_size = 8
 in_channels = 32
 patch_h = 2
 patch_w = 2
 num_patch_h = 16
 num_patch_w = 16
 num_patches = num_patch_h * num_patch_w
 patch_area = patch_h * patch_w
 def official(x: torch.Tensor):
    # [B, C, H, W] -> [B * C * n_h, p_h, n_w, p_w]
    x = x.reshape(batch_size * in_channels * num_patch_h, patch_h, num_patch_w, patch_w)
    # [B * C * n_h, p_h, n_w, p_w] -> [B * C * n_h, n_w, p_h, p_w]
    x = x.transpose(1, 2)
    # [B * C * n_h, n_w, p_h, p_w] -> [B, C, N, P] where P = p_h * p_w and N = n_h * n_w
    x = x.reshape(batch_size, in_channels, num_patches, patch_area)
    # [B, C, N, P] -> [B, P, N, C]
    x = x.transpose(1, 3)
    # [B, P, N, C] -> [BP, N, C]
    x = x.reshape(batch_size * patch_area, num_patches, -1)
    return x
 def my_self(x: torch.Tensor):
    # [B, C, H, W] -> [B, C, n_h, p_h, n_w, p_w]
    x = x.reshape(batch_size, in_channels, num_patch_h, patch_h, num_patch_w, patch_w)
    # [B, C, n_h, p_h, n_w, p_w] -> [B, C, n_h, n_w, p_h, p_w]
    x = x.transpose(3, 4)
    # [B, C, n_h, n_w, p_h, p_w] -> [B, C, N, P] where P = p_h * p_w and N = n_h * n_w
    x = x.reshape(batch_size, in_channels, num_patches, patch_area)
    # [B, C, N, P] -> [B, P, N, C]
    x = x.transpose(1, 3)
    # [B, P, N, C] -> [BP, N, C]
    x = x.reshape(batch_size * patch_area, num_patches, -1)
    return x
 if __name__ == '__main__':
    t = torch.randn(batch_size, in_channels, num_patch_h * patch_h, num_patch_w * patch_w)
    print(torch.equal(official(t), my_self(t)))
    t1 = time.time()
    for _ in range(1000):
        official(t)
    print(f"official time: {time.time() - t1}")
    t1 = time.time()
    for _ in range(1000):
        my_self(t)
    print(f"self time: {time.time() - t1}")
--- a/SkinType/utils.py
+++ b/SkinType/utils.py
@ -0,0 +1,179 @@
 import os
 import sys
 import json
 import pickle
 import random
 import torch
 from tqdm import tqdm
 import matplotlib.pyplot as plt
 def read_split_data(root: str, val_rate: float = 0.2):
    random.seed(0)  # 保证随机结果可复现
    assert os.path.exists(root), "dataset root: {} does not exist.".format(root)
    # 遍历文件夹，一个文件夹对应一个类别
    flower_class = [cla for cla in os.listdir(root) if os.path.isdir(os.path.join(root, cla))]
    # 排序，保证各平台顺序一致
    flower_class.sort()
    # 生成类别名称以及对应的数字索引
    class_indices = dict((k, v) for v, k in enumerate(flower_class))
    json_str = json.dumps(dict((val, key) for key, val in class_indices.items()), indent=4)
    with open('class_indices.json', 'w') as json_file:
        json_file.write(json_str)
    train_images_path = []  # 存储训练集的所有图片路径
    train_images_label = []  # 存储训练集图片对应索引信息
    val_images_path = []  # 存储验证集的所有图片路径
    val_images_label = []  # 存储验证集图片对应索引信息
    every_class_num = []  # 存储每个类别的样本总数
    supported = [".jpg", ".JPG", ".png", ".PNG"]  # 支持的文件后缀类型
    # 遍历每个文件夹下的文件
    for cla in flower_class:
        cla_path = os.path.join(root, cla)
        # 遍历获取supported支持的所有文件路径
        images = [os.path.join(root, cla, i) for i in os.listdir(cla_path)
                  if os.path.splitext(i)[-1] in supported]
        # 排序，保证各平台顺序一致
        images.sort()
        # 获取该类别对应的索引
        image_class = class_indices[cla]
        # 记录该类别的样本数量
        every_class_num.append(len(images))
        # 按比例随机采样验证样本
        val_path = random.sample(images, k=int(len(images) * val_rate))
        for img_path in images:
            if img_path in val_path:  # 如果该路径在采样的验证集样本中则存入验证集
                val_images_path.append(img_path)
                val_images_label.append(image_class)
            else:  # 否则存入训练集
                train_images_path.append(img_path)
                train_images_label.append(image_class)
    print("{} images were found in the dataset.".format(sum(every_class_num)))
    print("{} images for training.".format(len(train_images_path)))
    print("{} images for validation.".format(len(val_images_path)))
    assert len(train_images_path) > 0, "number of training images must greater than 0."
    assert len(val_images_path) > 0, "number of validation images must greater than 0."
    plot_image = False
    if plot_image:
        # 绘制每种类别个数柱状图
        plt.bar(range(len(flower_class)), every_class_num, align='center')
        # 将横坐标0,1,2,3,4替换为相应的类别名称
        plt.xticks(range(len(flower_class)), flower_class)
        # 在柱状图上添加数值标签
        for i, v in enumerate(every_class_num):
            plt.text(x=i, y=v + 5, s=str(v), ha='center')
        # 设置x坐标
        plt.xlabel('image class')
        # 设置y坐标
        plt.ylabel('number of images')
        # 设置柱状图的标题
        plt.title('flower class distribution')
        plt.show()
    return train_images_path, train_images_label, val_images_path, val_images_label
 def plot_data_loader_image(data_loader):
    batch_size = data_loader.batch_size
    plot_num = min(batch_size, 4)
    json_path = './class_indices.json'
    assert os.path.exists(json_path), json_path + " does not exist."
    json_file = open(json_path, 'r')
    class_indices = json.load(json_file)
    for data in data_loader:
        images, labels = data
        for i in range(plot_num):
            # [C, H, W] -> [H, W, C]
            img = images[i].numpy().transpose(1, 2, 0)
            # 反Normalize操作
            img = (img * [0.229, 0.224, 0.225] + [0.485, 0.456, 0.406]) * 255
            label = labels[i].item()
            plt.subplot(1, plot_num, i+1)
            plt.xlabel(class_indices[str(label)])
            plt.xticks([])  # 去掉x轴的刻度
            plt.yticks([])  # 去掉y轴的刻度
            plt.imshow(img.astype('uint8'))
        plt.show()
 def write_pickle(list_info: list, file_name: str):
    with open(file_name, 'wb') as f:
        pickle.dump(list_info, f)
 def read_pickle(file_name: str) -> list:
    with open(file_name, 'rb') as f:
        info_list = pickle.load(f)
        return info_list
 def train_one_epoch(model, optimizer, data_loader, device, epoch):
    model.train()
    loss_function = torch.nn.CrossEntropyLoss(label_smoothing=0.1)
    accu_loss = torch.zeros(1).to(device)  # 累计损失
    accu_num = torch.zeros(1).to(device)   # 累计预测正确的样本数
    optimizer.zero_grad()
    sample_num = 0
    data_loader = tqdm(data_loader, file=sys.stdout)
    for step, data in enumerate(data_loader):
        images, labels = data
        sample_num += images.shape[0]
        pred = model(images.to(device))
        pred_classes = torch.max(pred, dim=1)[1]
        accu_num += torch.eq(pred_classes, labels.to(device)).sum()
        loss = loss_function(pred, labels.to(device))
        loss.backward()
        accu_loss += loss.detach()
        data_loader.desc = "[train epoch {}] loss: {:.3f}, acc: {:.3f}".format(epoch,
                                                                               accu_loss.item() / (step + 1),
                                                                               accu_num.item() / sample_num)
        if not torch.isfinite(loss):
            print('WARNING: non-finite loss, ending training ', loss)
            sys.exit(1)
        optimizer.step()
        optimizer.zero_grad()
    return accu_loss.item() / (step + 1), accu_num.item() / sample_num
@torch.no_grad()
 def evaluate(model, data_loader, device, epoch):
    loss_function = torch.nn.CrossEntropyLoss()
    model.eval()
    accu_num = torch.zeros(1).to(device)   # 累计预测正确的样本数
    accu_loss = torch.zeros(1).to(device)  # 累计损失
    sample_num = 0
    data_loader = tqdm(data_loader, file=sys.stdout)
    for step, data in enumerate(data_loader):
        images, labels = data
        sample_num += images.shape[0]
        pred = model(images.to(device))
        pred_classes = torch.max(pred, dim=1)[1]
        accu_num += torch.eq(pred_classes, labels.to(device)).sum()
        loss = loss_function(pred, labels.to(device))
        accu_loss += loss
        data_loader.desc = "[valid epoch {}] loss: {:.3f}, acc: {:.3f}".format(epoch,
                                                                               accu_loss.item() / (step + 1),
                                                                               accu_num.item() / sample_num)
    return accu_loss.item() / (step + 1), accu_num.item() / sample_num
--- a/SkinType/video.py
+++ b/SkinType/video.py
@ -0,0 +1,51 @@
 import cv2
 import dlib
 import numpy as np
 from PIL import Image
 from predict_api import ImagePredictor
 # Initialize camera and face detector
 cap = cv2.VideoCapture(0)
 detector = dlib.get_frontal_face_detector()
 # Initialize ImagePredictor
 predictor = ImagePredictor(model_path="best_model_'0.8998410174880763'.pth", class_indices_path="./class_indices.json")
 while True:
    # Capture frame-by-frame
    ret, frame = cap.read()
    # Convert the image from BGR color (which OpenCV uses) to RGB color
    rgb_image = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
    # Perform face detection
    faces = detector(rgb_image)
    # Loop through each face in this frame
    for rect in faces:
        # Get the bounding box coordinates
        x1, y1, x2, y2 = rect.left(), rect.top(), rect.right(), rect.bottom()
        # Crop the face from the frame
        face_image = rgb_image[y1:y2, x1:x2]
        # Use ImagePredictor to predict the class of this face
        result = predictor.predict(face_image)
        # Draw a rectangle around the face
        cv2.rectangle(frame, (x1, y1), (x2, y2), (0, 255, 0), 2)
        # Display the class name and score
        cv2.putText(frame, f"{result['result'][0]['name']}: {round(result['result'][0]['score'],4)}", (x1, y1-10), cv2.FONT_HERSHEY_SIMPLEX, 0.9, (36,255,12), 2)
    # Display the resulting frame
    cv2.imshow('Video', frame)
    # Exit loop if 'q' is pressed
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break
 # When everything is done, release the capture
 cap.release()
 cv2.destroyAllWindows()