Eye - Movement - Recognition开源模型 - 实时精准检测分类眼眉细微动作

首页

Eye Movement Recognition

由 shayan5422 开发

一个先进的实时系统，能够准确检测和分类眼睛和眉毛的细微动作，包括'是'、'否'和'正常'三种动作。

人脸相关开源协议:MIT #实时眼眉识别 #CNN-LSTM架构 #非语言交互

下载量 105

发布时间 : 11/8/2024

模型简介

该模型采用CNN-LSTM架构，能够有效捕捉单帧的空间特征和帧序列的时间动态，确保在真实场景中的稳健和可靠表现。

模型特点

实时检测

持续处理实时摄像头画面，无显著延迟地检测眼眉动作。

GPU加速

通过TensorFlow-Metal在macOS上优化GPU使用，确保高效计算。

可扩展设计

系统设计易于扩展以支持更多面部手势或动作。

高准确率

在区分支持的动作方面表现出高准确率，是实时面部手势识别的可靠工具。

模型能力

实时眼眉动作检测

面部表情分类

非语言交流辅助

使用案例

人机交互

手势控制界面

通过眼眉动作增强用户界面交互。

提供更自然的交互方式

辅助技术

非语言交流工具

为言语障碍者提供通过眼眉动作进行交流的能力。

提高沟通效率

行为分析

面部表情监测

用于心理学或市场研究中的面部表情分析。

提供客观的行为数据

🚀 眼部和眉毛动作识别模型

本模型是一个先进的实时系统，能够精确检测和分类眼部及眉毛的细微面部动作。它采用 CNN - LSTM 架构，可有效捕捉单帧的空间特征和帧序列的时间动态，适用于人机交互、辅助技术等多种领域。

🚀 快速开始

前提条件

硬件：具备 Apple Silicon（M1、M1 Pro、M1 Max、M2 等）的 Mac，以支持 Metal GPU。
操作系统：macOS 12.3（Monterey）或更高版本。
Python：版本 3.9 或更高。

安装步骤

克隆仓库

git clone https://huggingface.co/shayan5422/eye-eyebrow-movement-recognition
cd eye-eyebrow-movement-recognition

安装 Homebrew（若尚未安装） Homebrew 是 macOS 的包管理器，可简化软件安装过程。

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

安装 Micromamba Micromamba 是与 Conda 环境兼容的轻量级包管理器。

brew install micromamba

创建并激活虚拟环境 使用 Micromamba 为项目创建一个隔离的环境。

# 创建一个名为 'eye_movement' 的新环境，使用 Python 3.9
micromamba create -n eye_movement python=3.9

# 激活环境
micromamba activate eye_movement

安装所需库 安装支持 Metal 的 TensorFlow（tensorflow-macos 和 tensorflow-metal）以及其他必要的库。

# 为 macOS 安装 TensorFlow
pip install tensorflow-macos

# 安装 TensorFlow Metal 插件以实现 GPU 加速
pip install tensorflow-metal

# 安装其他依赖项
pip install opencv-python dlib imutils tqdm scikit-learn matplotlib seaborn h5py

⚠️ 重要提示

在 macOS 上安装 dlib 有时可能会遇到挑战。如果遇到问题，可考虑通过 Conda 安装或参考 dlib 的官方安装说明。

下载 Dlib 的预训练形状预测器 此模型对面部特征点检测至关重要。

# 导航到项目目录
cd /path/to/your/project/eye-eyebrow-movement-recognition/

# 下载形状预测器
curl -LO http://dlib.net/files/shape_predictor_68_face_landmarks.dat.bz2

# 解压缩文件
bunzip2 shape_predictor_68_face_landmarks.dat.bz2

确保 shape_predictor_68_face_landmarks.dat 文件与脚本位于同一目录中。

加载模型

import tensorflow as tf

# 加载训练好的模型
model = tf.keras.models.load_model('final_model_sequences.keras')

进行预测

import cv2
import numpy as np
import dlib
from imutils import face_utils
from collections import deque
import queue
import threading

# 初始化 dlib 的人脸检测器和特征点预测器
detector = dlib.get_frontal_face_detector()
predictor = dlib.shape_predictor('shape_predictor_68_face_landmarks.dat')

# 初始化线程队列
input_queue = queue.Queue()
output_queue = queue.Queue()

# 定义序列长度
max_seq_length = 30

def prediction_worker(model, input_q, output_q):
    while True:
        sequence = input_q.get()
        if sequence is None:
            break
        # 预处理和预测
        # [添加你实际的预测逻辑]
        # 示例:
        prediction = model.predict(sequence)
        class_idx = np.argmax(prediction)
        confidence = np.max(prediction)
        output_q.put((class_idx, confidence))

# 启动预测线程
thread = threading.Thread(target=prediction_worker, args=(model, input_queue, output_queue))
thread.start()

# 开始视频捕获
cap = cv2.VideoCapture(0)
frame_buffer = deque(maxlen=max_seq_length)

while True:
    ret, frame = cap.read()
    if not ret:
        break

    # 预处理帧
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
    rects = detector(gray, 1)
    if len(rects) > 0:
        rect = rects[0]
        shape = predictor(gray, rect)
        shape = face_utils.shape_to_np(shape)
        # 提取感兴趣区域并预处理
        # [添加你实际的 ROI 提取和预处理逻辑]
        # 示例:
        preprocessed_frame = preprocess_frame(frame, detector, predictor)
        frame_buffer.append(preprocessed_frame)
    else:
        frame_buffer.append(np.zeros((64, 256, 1), dtype='float32'))

    # 如果缓冲区已满，发送进行预测
    if len(frame_buffer) == max_seq_length:
        sequence = np.array(frame_buffer)
        input_queue.put(np.expand_dims(sequence, axis=0))
        frame_buffer.clear()

    # 检查预测结果
    try:
        while True:
            class_idx, confidence = output_queue.get_nowait()
            movement = index_to_text.get(class_idx, "Unknown")
            text = f"{movement} ({confidence*100:.2f}%)"
            cv2.putText(frame, text, (30, 30), cv2.FONT_HERSHEY_SIMPLEX, 
                        0.8, (0, 255, 0), 2, cv2.LINE_AA)
    except queue.Empty:
        pass

    # 显示帧
    cv2.imshow('Real-time Movement Prediction', frame)

    # 按 'q' 键退出
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

# 清理资源
cap.release()
cv2.destroyAllWindows()
input_queue.put(None)
thread.join()

⚠️ 重要提示

请将占位符注释替换为你脚本中实际的预处理和预测逻辑。

✨ 主要特性

实时检测：持续处理实时网络摄像头输入，无明显延迟地检测眼部和眉毛动作。
GPU 加速：通过 macOS 上的 TensorFlow - Metal 进行 GPU 优化，确保高效计算。
可扩展设计：目前支持“是”“否”和“正常”动作，系统设计易于扩展以支持更多面部手势或动作。
用户友好界面：将预测结果直接叠加在实时视频流上，提供直观的视觉反馈。
高准确率：在区分支持的动作方面表现出高准确率，是实时面部手势识别的可靠工具。

📦 安装指南

安装步骤如上述“快速开始”部分所述，包括克隆仓库、安装依赖、下载预训练模型等。

💻 使用示例

基础用法

import tensorflow as tf

# 加载训练好的模型
model = tf.keras.models.load_model('final_model_sequences.keras')

高级用法

import cv2
import numpy as np
import dlib
from imutils import face_utils
from collections import deque
import queue
import threading

# 初始化 dlib 的人脸检测器和特征点预测器
detector = dlib.get_frontal_face_detector()
predictor = dlib.shape_predictor('shape_predictor_68_face_landmarks.dat')

# 初始化线程队列
input_queue = queue.Queue()
output_queue = queue.Queue()

# 定义序列长度
max_seq_length = 30

def prediction_worker(model, input_q, output_q):
    while True:
        sequence = input_q.get()
        if sequence is None:
            break
        # 预处理和预测
        # [添加你实际的预测逻辑]
        # 示例:
        prediction = model.predict(sequence)
        class_idx = np.argmax(prediction)
        confidence = np.max(prediction)
        output_q.put((class_idx, confidence))

# 启动预测线程
thread = threading.Thread(target=prediction_worker, args=(model, input_queue, output_queue))
thread.start()

# 开始视频捕获
cap = cv2.VideoCapture(0)
frame_buffer = deque(maxlen=max_seq_length)

while True:
    ret, frame = cap.read()
    if not ret:
        break

    # 预处理帧
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
    rects = detector(gray, 1)
    if len(rects) > 0:
        rect = rects[0]
        shape = predictor(gray, rect)
        shape = face_utils.shape_to_np(shape)
        # 提取感兴趣区域并预处理
        # [添加你实际的 ROI 提取和预处理逻辑]
        # 示例:
        preprocessed_frame = preprocess_frame(frame, detector, predictor)
        frame_buffer.append(preprocessed_frame)
    else:
        frame_buffer.append(np.zeros((64, 256, 1), dtype='float32'))

    # 如果缓冲区已满，发送进行预测
    if len(frame_buffer) == max_seq_length:
        sequence = np.array(frame_buffer)
        input_queue.put(np.expand_dims(sequence, axis=0))
        frame_buffer.clear()

    # 检查预测结果
    try:
        while True:
            class_idx, confidence = output_queue.get_nowait()
            movement = index_to_text.get(class_idx, "Unknown")
            text = f"{movement} ({confidence*100:.2f}%)"
            cv2.putText(frame, text, (30, 30), cv2.FONT_HERSHEY_SIMPLEX, 
                        0.8, (0, 255, 0), 2, cv2.LINE_AA)
    except queue.Empty:
        pass

    # 显示帧
    cv2.imshow('Real-time Movement Prediction', frame)

    # 按 'q' 键退出
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

# 清理资源
cap.release()
cv2.destroyAllWindows()
input_queue.put(None)
thread.join()

📚 详细文档

预期用途

本模型适用于多种应用场景，包括但不限于：

人机交互（HCI）：通过基于手势的控制增强用户界面。
辅助技术：为言语障碍者提供非语言交流工具。
行为分析：监测和分析面部表情，用于心理学或市场研究。
游戏：通过面部手势控制创造更沉浸式和响应式的游戏体验。

⚠️ 重要提示

该模型仅用于研究和教育目的。在实际应用中，请确保遵守隐私和道德准则。

模型架构

模型采用 CNN - LSTM 架构来捕捉空间和时间特征：

TimeDistributed CNN 层：
- Conv2D：独立提取每一帧的空间特征。
- MaxPooling2D：减少空间维度。
- BatchNormalization：稳定并加速训练。
Flatten 层：将 CNN 层的输出展平，为 LSTM 处理做准备。
LSTM 层：捕捉帧序列的时间依赖关系。
全连接层：基于组合的时空特征进行最终分类。
输出层：使用 Softmax 激活，提供三个类别（“是”“否”“正常”）的概率分布。