首頁 資訊 微表情面部肌電跨模態(tài)分析及標注算法

微表情面部肌電跨模態(tài)分析及標注算法

來源:泰然健康網(wǎng) 時間:2024年12月19日 06:16

Cross-modal analysis of facial EMG in micro-expressions and data annotation algorithm

WANG Su-Jing ,1,2, WANG Yan1,2, Li Jingting1,2, DONG Zizhao1,2, ZHANG Jianhang3, LIU Ye2,4

1CAS Key Laboratory of Behavioral Science, Institute of Psychology, Beijing 100101, China

2Department of Psychology, University of Chinese Academy of Sciences, Beijing 100049, China

3School of Computer Science, Jiangsu University of Science and Technology, Zhenjiang 212003, China

4State Key Laboratory of Brain and Cognitive Science, Institute of Psychology, Chinese Academy of Sciences, Beijing 100039, China

Abstract

Micro-expression analysis combined with deep learning has become a major trend. However, the small sample size problem has always hindered the further development of micro-expression analysis relying on deep learning. Micro-expressions are brief, subtle facial expressions, so the time cost and labor cost of micro-expression data annotation are very high, which leads to the problem of small sample size. To further improve the performance of micro-expression spotting and recognition, a huge amount of micro-expression samples is still needed for deep learning model training. Consequently, this research direction has an urgent desire to solve the problem of micro-expression data annotation. To address this issue, our research uses facial electromyographic (EMG) signals as a technical means to propose a set of solutions to the problem of micro-expression annotation from three aspects: automatic annotation, semi-automatic annotation, and unsupervised annotation of micro-expression data.

First, we use physiological psychology methods to combine facial EMG signals and behavioral cognitive psychology experiments to explore the physiological characteristics of micro-expressions. In this study, we recorded the signal frequency and amplitude during the contraction of facial muscles or muscle groups. And relevant EMG metrics were used to accurately and objectively quantify the three features of micro-expressions, namely, short presentation time, small movement amplitude, and asymmetry, to provide a theoretical basis for subsequent research on annotation and intelligent analysis of micro-expressions.

Second, for automatic annotation, this study proposes an automatic annotation scheme for micro-expressions based on distal facial electromyography. Specifically, we deploy EMG electrodes around the face without obscuring the facial expression being expressed. In this way, automatic annotation of micro-expression data by combining EMG information with video is implemented. Meantime, we design a psychological paradigm for inducing facial muscle movements. And based on the electromyographic signal pattern of micro-expressions, we develop an algorithm for automatic micro-expression annotation. Finally, we integrated the automatic annotation process and designed an automated annotation interactive software, which can greatly save the time of micro-expression annotation, reduce the workload of micro-expression coders, and solve the problem of small samples in micro-expression database to a certain extent.

Third, for semi-automatic annotation, we focus on the temporal action localization of micro-expressions (METL), i.e., the process of inferring the onset and offset frames of a micro-expression segment, based on the manual annotation of a single frame within that micro-expression. In particular, we propose a Micro-Expression Contrastive Identification Annotation (MECIA) method as a solution to METL. The backbone of the proposed MECIA method is a deep learning network. The network contains three modules: a contrastive module, an identification module, and an annotation module, corresponding to the three steps of manual annotation. The network's outputs infer the temporal localization of micro-expression clips. The experiments demonstrate that our inferred micro-expression intervals can correspond well to ground-truth intervals, demonstrating the potential of this approach to improve the efficiency of vision-based micro-expression annotation.

Fourth, for unsupervised annotation, due to the limited number of annotated micro-expression samples, we propose a self-supervised learning-based micro-expression analysis algorithm implemented in massive unsupervised annotation face and expression videos. Precisely, we provide time-domain supervised information for unsupervised annotation face videos based on the correspondence between facial EMG and facial expressions. And we design a Transformer-based self-supervised model for cross-modal contrastive learning, which utilizes EMG signals to enhance network learning of features targeting micro-expression action change patterns. Specifically, the introduction of EMG signals enhances the contrastive learning model to capture the weak dynamic facial changes in the time domain. This self-supervised learning model incorporating EMG signals can strengthen the model's understanding of visual features. In addition, cross-modal learning allows the model to learn more generalized features and enhance the robustness of the system.

Keywords:image annotation;micro-expression analysis;distal facial electromyography;micro-expression data annotation

1 問題提出

正如俗語“知人知面不知心”所說, 要洞察他人的心理狀態(tài)是十分困難的。隨著深度學習技術的發(fā)展, 人臉識別技術的性能得到了顯著提升, 其準確率已經(jīng)超過了人類的能力。除了人的身份識別之外, 通過面部的微表情分析他人的心理狀態(tài)的研究在近些年正在興起, 并且具有很高的挑戰(zhàn)性。微表情可以被廣泛地應用于國家安全、公安審訊、心理疾病預診、學校教育、衛(wèi)生防疫等領域。

微表情產(chǎn)生機理可以追述到1872年查爾斯·達爾文(Charles Darwin)在他的著作《人與動物的情感表達》(Darwin, 1872)中指出, 一些面部表情是無法抑制的, 即便有極大的主觀努力也無法做到完全抑制。后來神經(jīng)心理學研究發(fā)現(xiàn), 自主和非自主表情受兩種不同的神經(jīng)通路控制。同時, 心理學家Paul Ekman (Ekman & Friesen, 1969)也假設微表情是自主表情與非自主表情之間對抗的產(chǎn)物(Rinn, 1984)。它可能是表達情緒之前的自主抑制過程中的泄漏, 或者是在表情呈現(xiàn)后的截斷。因此, 從理論上講, 微表情(Micro-expression)是一種短暫、微小且局部的面部表情, 通常會在強烈的情緒體驗下出現(xiàn)(Yan et al., 2013)。這使得微表情具備出現(xiàn)時間短、運動幅度小和不對稱性的三個特征。

當前標注微表情的時間成本和人力成本都非常高, 并且需要編碼人員接受面部動作編碼系統(tǒng)(Facial Action Coding System, FACS)的專業(yè)知識訓練。該面部動作的編碼系統(tǒng)由Paul Ekman制定, 基于解剖學相關知識對面部運動進行分析, 可用于描述任意面部運動并定位其動作單元, 是當前最為常用的面部編碼系統(tǒng)。為了提高人們檢測和識別微表情的效率, Paul Ekman還在2002年開發(fā)了一個微表情訓練工具(Micro-Expression Training Tool, METT) (Ekman, 2004)。然而, 即使是經(jīng)過專業(yè)培訓的專家, 其在識別微表情方面的人工準確率也不到50%。因此, 為了在實際場景中充分發(fā)揮微表情的潛在應用價值, 當前迫切需要進行智能微表情分析的研究。

對于微表情分析算法來說, 需要大量的、有標注的微表情數(shù)據(jù)來訓練模型。而對微表情數(shù)據(jù)進行標注, 不僅需要專業(yè)知識, 而且耗時耗力, 這導致的小樣本問題一直束縛著微表情分析的快速發(fā)展。提高微表情數(shù)據(jù)標注的效率已經(jīng)成為微表情分析領域中迫切的需求。本研究通過計算機和心理學的交叉研究, 基于面部肌電生理信號和面部表情視覺信號進行跨模態(tài)分析, 從自動標注、半自動標注和無標注三個方面, 來提高微表情數(shù)據(jù)標注的效率。

2 研究現(xiàn)狀

2.1 國內(nèi)外微表情智能化分析研究現(xiàn)狀及發(fā)展動態(tài)分析

近10年來, 除了在大眾媒體領域獲得關注, 微表情研究也逐漸受到科學領域的重視。如圖1所示, 通過計算機科學與心理學的結合, 學者們不斷研發(fā)智能微表情分析技術, 從而幫助人們更有效地通過微表情來識別其中的隱藏情緒。

圖1


然而, 由于微表情樣本的人工標注十分費時費力, 目前常用的自發(fā)微表情數(shù)據(jù)庫只有7個, 分別是中國科學院心理研究所發(fā)布的CASME系列(Li, Dong, et al., 2022; Qu et al., 2018; Yan et al., 2014; Yan et al., 2013, April), 芬蘭奧盧大學發(fā)布的SMIC (Li et al., 2013, April)以及最新的4DME (Li, Cheng, et al., 2022), 英國曼徹斯特城市大學發(fā)布的SAMM (Davison et al., 2018)和山東大學發(fā)布的MMEW (Ben et al., 2021), 總樣本量超過2600個。然而, 目前大數(shù)據(jù)驅動的深度學習在許多領域被廣泛使用, 但是基于深度學習的微表情分析卻受限于微表情小樣本問題, 相關算法/應用的性能的提升十分有限。

因此, 本研究針對微表情數(shù)據(jù)標注問題, 分別從自動標注、半自動標注和無標注三方面來解決這一問題。本節(jié)將首先介紹微表情檢測與識別的相關方法的研究現(xiàn)狀, 然后對微表情標注的困難進行分析, 最后對本研究中應用到的技術理論和方法的國內(nèi)外研究現(xiàn)狀進行綜述。

2.1.1 微表情分析的研究現(xiàn)狀

微表情分析一般包括微表情檢測和微表情識別兩部分, 也就是對微表情數(shù)據(jù)的標注與分析。微表情檢測是在長視頻中準確定位微小短暫的微表情片段。微表情識別是指根據(jù)特定的情緒類別, 對微表情片段進行分類。無論是微表情檢測, 還是微表情識別都離不開大量的、有標注的數(shù)據(jù)。微表情檢測方法的研究主要的兩個思路是比較視頻幀的特征差和機器學習對表情幀分類。

基于特征差的微表情檢測方法在早期的研究中占據(jù)主流, 該方法通常通過滑動窗口劃分長視頻, 然后在整個視頻中設定合適的閾值, 從而檢測出較為明顯的面部運動。當前常用的特征包括:芬蘭奧盧大學趙國英團隊提出的時空局部二值模式(LBP?TOP) (Moilanen et al., 2014, August)、馬來西亞多媒體大學的梁詩婷團隊提出的使用光流以及光應變的特征(Liong et al., 2016, November)、筆者使用的主方向最大光流特征(MDMO) (Wang et al., 2017)、英國曼徹斯特城市大學Moi Hoon Yap團隊使用的3D?HOG (Davison et al., 2018, May)等。基于特征差的微表情檢測方法可以在微表情持續(xù)時間的時間窗口內(nèi)對幀特征進行比較, 但特征差異方法并不具備區(qū)分微表情和其他頭部動作的能力。這就導致在較為復雜的長視頻中, 基于特征差的檢測方法會檢測到許多宏表情或頭動等高于閾值的面部動作, 最終誤檢率較高。

為了提升檢測方法區(qū)分微表情與其他面部動作的能力, 基于機器學習/深度學習的微表情檢測方法逐漸得到了研究人員的關注。剛剛興起的深度學習的微表情檢測方法目前只有20余篇相關論文發(fā)表。例如本文作者在2021年提出的長視頻中多尺度檢測微表情片段的神經(jīng)網(wǎng)絡(MESNet) (Wang et al., 2021)、電子科技大學李永杰團隊提出的雙流卷積神經(jīng)網(wǎng)絡(Yu et al., 2021, October)、北京科技大學謝倫團隊提出的時空卷積注意力神經(jīng)網(wǎng)絡(Pan et al., 2021, October)、中國電子科技集團電子科學研究院謝海永團隊構建的基于光流的LSTM網(wǎng)絡(Ding et al., 2019, September)以及KDDI綜合研究所楊博等人提出的基于面部動作單元(Action Unit, AU)的微表情檢測神經(jīng)網(wǎng)絡(Yang et al., 2021, October)等。但當前基于機器學習/深度學習的微表情檢測方法仍面臨著小樣本的限制, 導致近年來該方法的性能提升并不顯著, 而難以運用到實際場景中。

同時, 結合深度學習的微表情識別技術已經(jīng)成為了主要趨勢, 并且識別率在不斷提升, 開始有研究團隊通過引入遷移學習的方法來增強神經(jīng)網(wǎng)絡提取微表情下特征的性能, 這在一定程度上解決了微表情小樣本問題對深度學習微表情識別的限制。例如, 本文作者通過遷移長期卷積神經(jīng)網(wǎng)絡來解決微表情的小樣本問題(Wang et al., 2018)、中國科學技術大學陳恩紅團隊將宏表情訓練得來的網(wǎng)絡用于微表情的識別任務, 也提升了神經(jīng)網(wǎng)絡的識別性能(Xia et al., 2020, October)。北京師范大學孫波等人提出的從AU中提煉和轉移多只是用于微表情識別的知識遷移技術(Sun et al., 2020; Xia et al., 2020, October)。然而, 引入遷移學習的方法也只能對微表情的識別性能做到一定程度的提升, 并不能從根本上解決微表情小樣本問題的限制。若要將微表情檢測與識別的性能進一步突破, 還是需要大量的微表情樣本以供訓練, 足見該研究方向對解決微表情數(shù)據(jù)標注難題的迫切期望。

2.1.2 當前微表情數(shù)據(jù)標注面臨的困難

對于微表情數(shù)據(jù)標注是非常費力費時的。由于微表情是一種短暫的、微小的、局部的面部運動, 微表情的標注者需要通過慢放或者回放等操作對視頻逐幀觀察并進行標注。特別是標注起始幀和終止幀時, 需要反復觀看相應時間段, 同時反復對比幀與幀之間的細微變化。因為相較于宏表情來說, 微表情并不明顯, 很難通過肉眼檢測到。微表情的標注者需要經(jīng)過專業(yè)培訓。前人的研究(Torre et al., 2011, October)中也表示對于表情樣本的起始幀和終止幀的標注用時, 會占總體用時的一半, 可見微表情數(shù)據(jù)標注的困難。針對這個難題, 在本研究擬采用:

(1)使用面部肌電信號, 對微表情數(shù)據(jù)進行自動標注;

(2)借鑒時序動作定位的思想, 對微表情數(shù)據(jù)和的起始幀和終止幀進行定位, 從而實現(xiàn)對微表情數(shù)據(jù)進行半自動標注;

(3)把自監(jiān)督學習引入微表情分析, 實現(xiàn)微表情分析中對無標注的微表情數(shù)據(jù)的應用。

下面幾節(jié), 本文分別介紹面部肌電的研究現(xiàn)狀, 時序動作定位的研究現(xiàn)狀和自監(jiān)督學習的研究現(xiàn)狀。

2.1.3 面部肌電的研究現(xiàn)狀

面部肌電的一種常見用途是研究由面部表情體現(xiàn)的情緒反應。一般來說, 評估面部表情的方法可以分為兩類, 一類是人為主觀評估, 包括表情分類、表情維度評分和基于FACS系統(tǒng)的肌肉運動單元編碼; 另一類是客觀評估, 包括基于肌電測量的表情評估方法(Hess, 2009)。Mehrabian和Russell提出的情緒維度模型PAD對情緒從愉悅度(Pleasure)、激活度(Arousal)和優(yōu)勢度(Dominance)的三個維度描述, 并編制了PAD量表以測量情緒狀態(tài)。李曉明等人對該量表進行了漢化, 編制了中文版PAD量表(李曉明 等, 2008)。其中愉悅度(Pleasure)也叫效價(valence), 可以通過對不同部位的面部肌電信號進行度量, 并以此確定面部肌電數(shù)據(jù)與情緒效價、激活度以及優(yōu)勢度之間的聯(lián)系(H?fling et al., 2020)。早在2014年, Gruebler等人設計了一款可穿戴的面部肌電采集設備來通過面部肌電信號判斷正性表情(Gruebler & Suzuki, 2014)。最近, 日本京都大學的Sato等人也設計可穿戴面部肌電采集設備來測量情緒的效價(Sato et al., 2021)。與傳統(tǒng)的使用8組電極的面部肌電測量相比, Schultz等人只用4組電極(前額皺眉肌、額肌、顴骨大肌和咬肌), 而表情的識別率只減少了不到5% (Schultz & Pruzinec, 2010)。雖然識別率有所降低, 但是減少一半的電極數(shù)量, 可以讓更多的表情展示出來, 這使得使用面部肌電對微表情數(shù)據(jù)進行自動標注成為可能。進而Hamedi等人(2013)通過3組電極, 分別放在額肌和顳肌上, 使用通用橢圓基函數(shù)神經(jīng)網(wǎng)絡來區(qū)分10種面部動作, 準確率達87%。這些面部動作包括對稱或不對稱的微笑, 揚起眉毛, 皺起眉頭等。Monica等人(Perusquía-Hernández et al., 2021, December)在電極完全不遮擋面部的情況下, 利用遠端(distal)肌電信號實現(xiàn)對微笑的檢測。

2.1.4 時序動作定位的研究現(xiàn)狀

時間動作定位(Temporal action localization, TAL)需要在視頻中檢測包含目標動作的時間區(qū)間。對于一個未經(jīng)修剪的長視頻, 時間動作定位主要解決兩個任務, 即識別和定位。它提供了計算機視覺應用所需的最基本信息, 即是什么動作, 且動作何時發(fā)生。時間動作定位與我們的生活息息相關, 在很多領域具有廣泛的應用前景和社會價值, 例如視頻摘要(Lee et al., 2012, June)、公共視頻監(jiān)控(Vishwakarma & Agrawal, 2013)和技能評估(Gao et al., 2014, September)等。

2014年之前, 時間動作定位的方法主要基于傳統(tǒng)的手工特征提取。之后, 隨著深度學習的發(fā)展, 時間動作定位的相關研究有了顯著的進展。目前主流的兩種方法主要是分別基于全監(jiān)督學習和弱監(jiān)督學習?;谌O(jiān)督學習的TAL主要是基于視頻級別和幀級別的標注, 對模型進行訓練(Chao et al., 2018, June; Long et al., 2019, June)。與此同時, 由于在實際生活中, 幀級別的標注十分困難而且容易受到標注者的主觀影響, 基于弱監(jiān)督學習的TAL方法逐漸受到研究者們的歡迎(Lee et al., 2020, April; Liu et al., 2019, June)

2.1.5 自監(jiān)督學習的研究現(xiàn)狀

LeCun、Bengio和Hinton于2015年聯(lián)合在“Nature”雜志發(fā)表的關于深度學習的綜述文章(LeCun et al., 2015)中指出, 實現(xiàn)像人類視覺系統(tǒng)那樣的無監(jiān)督深度學習是未來的一個重要方向。其中, 自監(jiān)督學習作為無監(jiān)督學習的一種(Jing & Tian, 2020), 已經(jīng)成為一個熱門的研究方向。自監(jiān)督學習利用大量無監(jiān)督數(shù)據(jù), 通過設計輔助任務來獲取監(jiān)督信號, 并用它來訓練網(wǎng)絡, 使網(wǎng)絡能夠學習到有利于下游任務的特征信息。自監(jiān)督算法相比手工構建特征和標注數(shù)據(jù), 能夠節(jié)省時間和人力, 提高深度學習網(wǎng)絡的效率和實用性。自監(jiān)督學習已經(jīng)在許多任務中實現(xiàn)了利用無監(jiān)督數(shù)據(jù)構造自身監(jiān)督信息, 并取得了可以和監(jiān)督學習媲美的性能表現(xiàn)(Doersch et al., 2015; Fernando et al., 2017, July; Larsson et al., 2017, July; Li et al., 2019; Pathak et al., 2016, June)。

2.2 本文貢獻

隨著近年來深度學習技術的發(fā)展, 很多理論研究已經(jīng)開始落地應用, 例如人臉識別已經(jīng)從消費級別應用擴展到安全級別的應用, 而這些應用的背后有著大量的標注數(shù)據(jù)作為支持。對于人臉識別的標注, 其技術含量低, 標注時間快, 標注人員不需要過多的專業(yè)知識培訓。而對于微表情數(shù)據(jù)標注, 標注人員需要具有FACS編碼的專業(yè)知識, 同時在標注時, 標注人員需要逐幀進行觀察, 耗時耗力。為了解決微表情數(shù)據(jù)標注困難這個問題, 本研究嘗試使用自動標注、半自動標注及無標注的方法。

在理論方面, 本研究通過面部肌電信號對微表情的表達機理進行進一步的研究, 對微表情的三個特征進行更加客觀的量化, 還為之后使用肌電和腦電之間的相關性來進一步研究微表情的腦機制提供支持, 并有望將結果應用在表情識別、行為識別等領域。同時, 在實踐方面, 針對微表情數(shù)據(jù)標注困難的問題, 本研究從微表情數(shù)據(jù)自動標注、半自動標注和無標注三個方面各提出一套解決方案, 從一定程度上緩解微表情數(shù)據(jù)標注困難。

3 研究構想

3.1 基礎理論和模型的研究構想

針對微表情動作幅度不明顯導致的數(shù)據(jù)標注困難這一問題, 本研究從生理心理學方法和模式識別相結合, 開展基于面部表情圖像和面部肌電跨模態(tài)分析的微表情數(shù)據(jù)標注問題研究。具體研究路線如圖2所示, 首先對心理學實驗中的面部肌電信號進行微表情機理研究, 為計算機自動識別算法提供理論基礎; 其次, 在自動識別算法中分別從自動標注、半自動標注和無標注三個方面進行深入的研究; 最后推廣應用以緩解微表情數(shù)據(jù)標注的困難。

圖2


3.1.1 研究基于面部肌電信號的微表情機理

本文通過生理心理學方法, 將面部肌電生理信號和行為認知心理實驗相結合, 來研究微表情機理。具體的, 研究記錄了面部肌肉或肌肉群組收縮時的信號頻率和振幅, 并用相關指標來對微表情的三個特征(呈現(xiàn)時間短、運動幅度小和不對稱性)進行更精確的量化, 為后續(xù)研究提供理論基礎。

在采集設備方面, 肌電采集設備在面部放置時, 電極會對面部造成一定程度的遮擋, 進而影響傳統(tǒng)的FACS編碼。為解決這一問題, 本研究在研制多通道、可穿戴的面部肌電采集設備同時, 還提出了一個遠端面部肌電電極的部署方案。在不遮擋面部表情表達和對面部表情采集的情況下, 把肌電電極部署在臉部周圍, 使其可以重構出其鄰近區(qū)域特定的肌肉收縮情況, 從而實現(xiàn)對微表情數(shù)據(jù)的自動標注。同時本研究設計誘發(fā)面部肌肉運動的心理學范式, 并以微表情的肌電信號機理為基礎, 設計基于遠端面部肌電的微表情數(shù)據(jù)自動標注的算法。

3.1.2 研究基于單幀標注的微表情起止幀自動標注

本文研究微表情的時間動作定位, 為基于單幀標注的微表情起止幀自動標注算法找出可以借鑒的知識。本文從研究微表情視頻片段內(nèi)部幀與幀之間的距離度量, 使用具有單調(diào)性的度量去構造損失函數(shù), 搭建微表情起止幀自動標注的深度學習網(wǎng)絡。

微表情的動作強度在從起始幀到高峰幀的區(qū)間上是單調(diào)增加的, 而從高峰幀到終止幀的區(qū)間上是單調(diào)下降的。構造出符合這種規(guī)律的幀之間的距離度量, 即可實現(xiàn)基于單幀標注的微表情起止幀自動標注。

3.1.3 研究基于肌電信號的跨模態(tài)自監(jiān)督學習算法

本文研究了面部肌電與面部表情的對應關系, 為無標注的人臉視頻提供時域監(jiān)督信息; 設計一個基于Transformer的跨模態(tài)對比學習無監(jiān)督模型, 利用肌電信號增強網(wǎng)絡學習針對微表情動作變化模式的特征。具體而言, 利用面部肌電信號和面部表情的對應關系, 通過Transfomer網(wǎng)絡有效學習面部動作的時空特征; 并在樣本有限的情況下, 通過對比學習, 利用大量的宏表情、其余頭部動作以及中性人臉等樣本作為負樣本對, 增強模型對微表情的辨別能力。

3.2 關鍵技術的研究構想3.2.1 基于面部肌電信號的微表情機理的研究

面部肌電的一種常見用途就是研究與面部肌肉動作相關的情緒反應。與人為的主觀評估方法相比, 面部肌電是對面部肌肉活動的測量, 是更加客觀的評估面部表情的方法。在本研究通過面部肌電對微表情的三個特征(呈現(xiàn)時間短、運動幅度小和不對稱性)進行進一步的量化考察, 為后續(xù)研究提供理論指導, 研究框圖如圖3所示。

圖3


本文設計了一個心理學實驗, 以有效誘發(fā)微表情, 記錄肌電信號并以此研究微表情的機理。在刺激材料方面, 該實驗使用高情緒效價的視頻片段作為誘發(fā)表情的刺激材料, 包括7種情緒(高興、厭惡、悲傷、恐懼、生氣、驚訝和中性)。每種情緒2~3個視頻, 每個視頻長度為1~3分鐘。這些視頻均為CASME數(shù)據(jù)庫系列中所使用的誘發(fā)材料。為了盡量減少電極對微表情的影響, 本研究還針對不同的刺激材料, 制定不同的電極放置方案。該方案根據(jù)CAS (ME)3數(shù)據(jù)庫中已誘發(fā)和編碼后標注出的AU統(tǒng)計結果來制定。比如:經(jīng)過統(tǒng)計, 某個刺激材料誘發(fā)最多的是顴肌運動引起的AU12。那么, 在使用此刺激材料誘發(fā)微表情時, 我們只在被試的顴肌上放置電極。

實驗過程中, 被試被要求觀看刺激材料, 刺激材料由實驗者按預定順序呈現(xiàn), 呈現(xiàn)順序在實驗被試間進行平衡。通過攝像機記錄下被試在觀看刺激材料時所產(chǎn)生的面部動作, 同時記錄面部肌電。被試在實驗過程中被要求盡可能保持中性表情, 眼睛不要離開屏幕, 頭盡量保持不動。被試還被告知, 他們的薪酬與表現(xiàn)直接相關。這些操作被用來增強被試隱藏真實面部表情的動機, 并減少無關的動作。被試坐在一個顯示器前, 一臺攝像機被放置在顯示器后面, 記錄被試正面的全臉。主試根據(jù)刺激材料所誘發(fā)的情緒對應AU選擇肌電電極的貼片位置。每段視頻結束1 s后, 被試需要對視頻刺激所誘發(fā)的情緒進行二分評價, 如果感覺這一段視頻是整體積極、正性就按下鍵盤中F鍵, 如果感覺視頻整體消極、負性就按下鍵盤中J鍵?;趦?nèi)心感受進行的自我報告, 是情緒編碼的重要參考資料。被試對每個視頻都做完二分評價后, 顯示器會有500 ms空屏, 然后進入下一段視頻。在整個實驗過程中的任意時間, 要求被試密切注視屏幕并保持中立的表情, 一旦察覺到自己出現(xiàn)表情, 立刻按鍵記錄。實驗流程如圖4所示。

圖4


該實驗中, 面部電極的放置會造成部分面部會被一定程度遮擋的情況, 這種情況下如何進行傳統(tǒng)的FACS編碼, 進而確定是否有微表情的出現(xiàn), 即如何對部分遮擋的面部進行微表情編碼, 這一直是微表情研究中要考慮的技術問題。為解決這個問題, 在本研究中, 我們對不同情緒刺激制定了不同的電極方案, 將電極對微表情編碼的影響盡可能降低。本研究引入肌電模態(tài)對微表情進行分析, 確定微表情和肌電信號的對應關系, 即研究面部表情表達肌肉的基線, 確定肌電信號的振幅、頻率等指標, 與微表情的呈現(xiàn)時間、運動幅度等的對應關系。

3.2.2 基于面部遠端肌電的微表情自動標注的研究

微表情數(shù)據(jù)標注的困難一直限制著微表情分析的發(fā)展。對于這種情況, 本文提出了基于面部肌電的微表情自動標注的研究。擬在不遮擋面部微表情采集的情況下, 把采集肌電的電極分布在面部周圍, 采集遠端肌電信號來實現(xiàn)對微表情的自動標注, 研究框圖如圖5所示。

圖5


針對面部區(qū)域的神經(jīng)、肌肉較多的情況, 我們自行設計了一款可以獲取更多面部肌肉的肌電信號的多通道肌電采集設備, 并將其用于采集面部周圍肌肉的串擾信號。本研究使用德州儀器生產(chǎn)的ADS1299作為肌電信號采集設備的信號采集芯片, STM32F429IGT6芯片作為控制器單元, ESP32芯片作為無線傳輸模塊。其中, ADS1299芯片具有8通道低噪聲、高分辨率同步采樣的ADC模數(shù)轉換器、內(nèi)置可編程增益放大器、輸入復用器、內(nèi)部基準電壓、時鐘振蕩器、偏置放大電路、內(nèi)部測試源以及導聯(lián)脫落檢測電路, 內(nèi)部器件噪聲低于1 μV, 具備肌電采集所需的全部常用功能。STM32F429核心板包含了更高性能的Cortex M4內(nèi)核, 其操作頻率最高達到180 Mhz, 同時擁有256 kB的片內(nèi)SRAM、6個串行外設接口(Serial Peripheral Interface, SPI)、兩個DMA控制器(共16個通道)等。此外, 板載32MB的SDRAM且又體積小巧, 僅65 mm × 45 mm, 方便應用到各種項目里面, 滿足我們的數(shù)據(jù)緩存空間和數(shù)據(jù)快速轉換的需要。ESP32C3?MINI1芯片作為無線傳輸設備, 根據(jù)手冊指示重新對其進行固件燒錄, 將wifi通信接口由串口更改為SPI接口, 可以達到更高的數(shù)據(jù)傳輸速度。在實際應用中, 該無線傳輸器的最大穩(wěn)定數(shù)據(jù)傳輸速度可以達到3 M/s。此外該模塊具有尺寸小、功耗低等優(yōu)點, 滿足無線數(shù)據(jù)傳輸?shù)男枨?。為了避免市電對采集信號的干擾, 采集裝置配有電源管理模塊, 并采用鋰電池供電。本設備需要32通道, 所以本研究采用4塊ADS1299芯片進行菊花鏈串聯(lián)成32通道。

對于自行設計的設備, 需要驗證其性能指標。本研究將自行設計的設備與Biopac生理多導儀的肌電模塊進行比較。用兩套設備分別采集額肌、皺眉肌、眼輪匝肌、鼻唇提肌、顴大肌、口輪匝肌、降口角肌和頦肌的肌電信號, 即最大肌肉收縮力量(maximal voluntary contraction, MVC)。為了度量兩個設備記錄的MVC相似性, 本研究分別使用Spearman相關性(Spearman’s correlation)、能量比(Energy ratio)、線性相關系數(shù)(Linear correlation coefficient)和互相關系統(tǒng)數(shù)(Cross- correlation coefficient)。

在數(shù)據(jù)采集過程中, 通過數(shù)碼管的亮滅來同步肌電和視頻數(shù)據(jù)采集的開始時間。由于肌肉間的信號傳播, 一個通道可能會包含多塊肌肉源的串擾信號, 所以我們使用盲源分離算法進行肌肉運動源成分的分離。為了得到更好的信號波形并且去除噪聲干擾, 進行20~450 Hz的帶通濾波、去除直流電、全波整流等操作, 最后得到信號的線性包絡。此外, 我們設計了一個算法提取包絡信號發(fā)生波動的開始和結束時刻, 然后根據(jù)數(shù)碼管由暗變亮的時間, 就可以精準地定位視頻中微表情發(fā)生的開始時間和結束時間。最后, 我們整合這個過程, 設計一款自動化標注交互軟件, 可以極大地節(jié)約了微表情的標注時間, 減少標注人員的工作量, 且在一定程度上解決了微表情數(shù)據(jù)庫的小樣本問題。

微表情自動標注模型的建立需要大量面部肌肉運動時的肌電樣本, 所以在確定好采集設備與采集肌肉位置后, 我們需要采集這些部位運動狀態(tài)下的肌電信號, 而面部肌肉運動有兩種誘發(fā)方式。第一種是通過指導語讓被試做面部指定肌肉的收縮, 這種方式容易引起指定肌肉周圍的肌肉的運動, 而使得用于建模的肌電信號生態(tài)效度不高。另一種方式是通過誘發(fā)特定的情緒, 使得被試面部出現(xiàn)自發(fā)的表情, 從而獲得和特定情緒相關的面部肌電信號, 其具有較高的生態(tài)效度。所以在本研究中使用心理學實驗手段誘發(fā)出自發(fā)產(chǎn)生的表情。為采集到可供建立模型的肌電數(shù)據(jù), 我們用到了前文提到的情緒誘發(fā)的方式設計的心理學實驗。即使用高情緒效價的視頻片段作為誘發(fā)表情的刺激材料, 每段視頻結束后, 被試填寫量表, 對內(nèi)心感受進行自我報告, 這被用作情緒編碼時的重要參考資料。由于本研究提前操縱控制了誘發(fā)材料本身的情緒類型, 因此所產(chǎn)生的面部動作較為純粹且易于區(qū)分。

3.2.3 基于單幀標注的微表情起止幀自動標注的研究

不同于單張表情圖片, 微表情的數(shù)據(jù)是以視頻片段的形式出現(xiàn)的。這就意味著微表情的標注, 還需要在時間維度上標注微表情視頻片斷的起始幀和終止幀。本研究要研究問題是, 假設微表情視頻片斷有一幀已經(jīng)被標為一種微表情, 那么如何去自動的推斷該微表情片斷的起始幀和終止幀, 如圖6所示。

圖6

圖6  基于單幀標注的微表情起止幀自動標注問題示意圖


對于這個問題, 本文提出一個基本解決思路和對應的算法設計, 即在一個包含微表情片段和背景幀的長視頻中, 對每個視頻幀進行分類, 確定其是否為微表情幀、背景幀或未標記幀。在初始階段, 每個微表情片段中只有一個幀的標簽被標記為1, 其余幀的標簽記為0, 并隨機選擇一些不屬于任何微表情片段的幀標記為?1, 即背景幀。然后, 使用深度學習網(wǎng)絡對已標記幀進行訓練, 計算未標記幀的微表情得分和背景得分, 并根據(jù)微表情動作變化的局部時空模式推斷出其所屬類別。最后, 重復這個過程直到所有幀都被標記為微表情幀或背景幀, 輸出每個視頻幀的標簽。

算法中用到的深度學習模型:CS?Net網(wǎng)絡結構如圖7所示, 其包括三個模塊:特征抽取模塊、分類模塊和得分模塊。特征模塊使用AlexNet網(wǎng)絡或ResNet網(wǎng)絡把幀抽取為特征向量, 其中AlexNet與ResNet網(wǎng)絡是基于深度學習的圖像分類任務常用的骨架模型。分類模塊把特征按微表情的類別進行分類。得分模塊則計算其屬于微表情的得分smt和屬于背景的得分sbt。

圖7


在算法結果的推斷中, 本研究不僅考慮CS?Net網(wǎng)絡的輸出結果, 另外還使用能夠體現(xiàn)微表情特征的局部時空模式(S?Pattern)來進一步的加以約束。S?Pattern體現(xiàn)了微表情在面部局部區(qū)域的變化特征, 即從起始幀到峰值幀的區(qū)間內(nèi), 微表情的動作模式呈現(xiàn)一個遞增的趨勢, 而在峰值幀到終止幀這個區(qū)間, 由于受到頭部動作或者表情不一定恢復原位等因素的影響, 動作模式可能呈現(xiàn)下降趨勢或者趨于平緩。具體來講, 通過主成分分析的方法, 在時間維度上對人臉興趣區(qū)域視頻進行特征分析。在保留前兩列的視頻主成分之后, 根據(jù)微表情的時間特征設定滑動窗口, 計算窗口內(nèi)每一幀的歐式空間距離, 從而得到可以體現(xiàn)微表情動作變化模式的特征, 即S?Pattern。

圖8顯示了一個微表情片斷的S?Pattern, 其曲線相對于時間(幀)具有單調(diào)性。這種單調(diào)性可以對CS?Net網(wǎng)絡的輸出結果加以進一步的約束。相關的方案在SAMM微表情數(shù)據(jù)庫上預實驗結果如圖9所示。

圖8


圖9

圖9  預實驗結果, 顯示SAMM數(shù)據(jù)庫前40個樣本


3.2.4 基于肌電信號的跨模態(tài)自監(jiān)督學習算法

由于已標注的微表情樣本有限, 本研究提出在大量的無標注人臉及表情視頻中進行自監(jiān)督學習。具體而言, 利用體現(xiàn)微表情的動作信息的肌電信號, 構建肌電的跨模態(tài)自監(jiān)督學習模型, 通過Transformer和對比學習的結合, 學習針對微表情的動態(tài)變化信息, 從而實現(xiàn)微表情檢測, 網(wǎng)絡框架如圖10所示。其中, Transformer是一種基于注意力機制的深度學習序列模型, 可以較好地解決序列傳導問題。

圖10


首先, 通過采集到的肌電信號與基準肌電信號的差異來去除靜態(tài)狀態(tài)下的肌電噪聲, 然后對差分信號進行濾波平滑和歸一化處理, 得到振幅隨時間變化的曲線。這個曲線即為面部動作變化肌電信號的包絡信號。該信號在簡化原始肌電信號波形變化的基礎上, 可以很好地體現(xiàn)面部動作變化。

其次, 通過計算包絡信號每個時刻的斜率和波幅變化來確定區(qū)域信號變化時長。由此, 將時間維度上連續(xù)的波形變化分割為符合微表情時域變化特征的片段和其他類型片段。同時, 根據(jù)包絡信號的時刻劃分波形, 得到對應不同面部動作的視頻片段。這些符合微表情特征的肌電包絡信號和對應視頻片段被用于構建對比學習中的正樣本對, 其余階段的視頻和肌電信號被用于構建負樣本對。

隨后, 通過跨模態(tài)的Transformer編碼器, 以表情圖像特征和肌電信號特征作為Token Embedding (代表微表情的特征), 以上特征對應的時刻作為Positional Embedding (代表序列的順序性)。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡或者循環(huán)神經(jīng)網(wǎng)絡在提取時空特征的過程中, 往往關注的是相鄰區(qū)域或者相鄰時刻的特征。而Transformer通過自注意力機制, 關注不同位置的特征, 從而學習對應不同肌電包絡信號波形的面部動作模式。

在得到Transformer編碼器輸出的兩種模態(tài)的特征后, 根據(jù)正負樣本對兩兩組合, 本研究將跨模態(tài)的特征輸入到對比學習的模型中, 對4種模態(tài)組合方式的對比學習。通常情況下, 在涉及人臉分析的深度學習模型中, 模型往往會優(yōu)先學習到人臉的個體信息, 而忽略面部細小的動態(tài)變化。因此, 微表情的類內(nèi)差異是在算法優(yōu)化中需要處理的一個問題。通過對比學習, 模型可以很好地縮小類內(nèi)差異, 增大類間差異, 使得模型具備區(qū)分微表情動作特征和其他類型動作特征的能力。同時, 肌電信號的引入可以增強對比學習模型對面部時域微弱動態(tài)變化的捕捉。

這種結合肌電信號的自監(jiān)督學習模型, 一方面可以增強模型對視覺特征的理解能力, 另一方面可以通過跨模態(tài)的學習使得模型學習到更加泛化的特征, 增強系統(tǒng)的魯棒性。

4 理論構建與創(chuàng)新

自從1966年心理學家Haggard和Isaacs發(fā)現(xiàn)微表情以來, 其心理學研究方法一般是通過FACS編碼對微表情進行研究。隨著機器學習等技術的發(fā)展, 近十幾年來也開始有計算機專家對智能化微表情分析進行初步探索。10年前兩個微表情數(shù)據(jù)庫的公開發(fā)表, 極大地推動了微表情自動分析的發(fā)展。雖然近10年來公開發(fā)布的微表情數(shù)據(jù)庫已有7個, 超過2600個樣本。隨著GAN的技術的推廣, 也有學者通過生成微表情樣本來緩解微表情小樣本的問題。但目前為止的微表情樣本量還相對較少, 阻礙了微表情自動分析進一步的發(fā)展。這主要因為微表情數(shù)據(jù)標注十分耗時耗力。針對這個問題, 本研究開展多學科交叉研究, 主要創(chuàng)新點包括:

對心理學研究方法做出了變革性的創(chuàng)新?;诿娌勘砬橄到y(tǒng)編碼的人為主觀評估方法已經(jīng)被廣泛用于微表情研究中, 其中多數(shù)是使用FACS系統(tǒng)對面部表情進行編碼研究, 而本研究使用面部肌電信號去研究微表情, 使得對微表情研究更加精確, 更加客觀量化, 打破了微表情標注方法完全依賴于人工編碼的制約, 極大地提高了建構微表情數(shù)據(jù)庫的效率和可靠性。

在計算機科學方面, 本研究創(chuàng)新性地提出“基于面部肌電的微表情自動標注的研究”和“基于單幀標注的微表情起止幀自動標注的研究”, 憑借客觀的面部肌電信號, 優(yōu)化設計了“基于肌電信號的跨模態(tài)自監(jiān)督學習算法”。從樣本標注層面上提出新問題, 探索新方法, 來解決微表情小樣本的問題。

參考文獻

[1]

李曉明, 傅小蘭, 鄧國峰. (2008).

中文簡化版PAD情緒量表在京大學生中的初步試用

中國心理衛(wèi)生雜志, 22(5), 327-329.

[本文引用: 1]

[2]

Ben, X., Ren, Y., Zhang, J., Wang, S.-J., Kpalma, K., Meng, W., & Liu, Y.-J. (2021).

Video-based facial micro- expression analysis: A survey of datasets, features and algorithms

In IEEE Transactions on Pattern Analysis and Machine Intelligence (Vol. 44, pp. 5826-5846). Singapore.

[本文引用: 1]

[3]

Chao, Y.-W., Vijayanarasimhan, S., Seybold, B., Ross, D. A., Deng, J., & Sukthankar, R. (2018, June).

Rethinking the faster r-cnn architecture for temporal action localization

Paper presented at the meeting of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 1130- 1139). Salt Lake City, UTAH.

[本文引用: 1]

[4]

Darwin, C. (1872).

The expression of the emotions in man and animals

London, UK: John Marry.

[本文引用: 1]

[5]

Davison, A., Merghani, W., Lansley, C., Ng, C.-C., & Yap, M. H. (2018, May).

Objective micro-facial movement detection using facs-based regions and baseline evaluation

In 2018 13th IEEE international conference on automatic face & gesture recognition (FG 2018) (pp. 642-649). China.

[本文引用: 1]

[6]

Davison, A. K., Lansley, C., Costen, N., Tan, K., & Yap, M. H. (2018).

SAMM: A spontaneous micro-facial movement dataset

IEEE Transactions on Affective Computing, 9(1), 116-129.

DOI:10.1109/TAFFC.2016.2573832    URL     [本文引用: 1]

[7]

Ding, J., Tian, Z., Lyu, X., Wang, Q., Zou, B., & Xie, H. (2019, September).

Real-time micro-expression detection in unlabeled long videos using optical flow and lstm neural network

In International Conference on Computer Analysis of Images and Patterns (pp. 622-634). Springer, Cham.

[本文引用: 1]

[8]

Doersch, C., Gupta, A., & Efros, A. A. (2015).

Unsupervised visual representation learning by context prediction

In Proceedings of the IEEE international conference on computer vision (pp. 1422-1430). Chile.

[本文引用: 1]

[9]

Ekman, P. (2004).

Emotions revealed

British Medical Journal, 328(Suppl. 5), 0405184.

[本文引用: 1]

[11]

Fernando, B., Bilen, H., Gavves, E., & Gould, S. (2017, July).

Self-supervised video representation learning with odd-one-out networks

In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3636-3645). Hawaii, Hawaii Convention Center.

[本文引用: 1]

[12]

Gao, Y., Vedula, S. S., Reiley, C. E., Ahmidi, N., Varadarajan, B., Lin, H. C.,... Hager, G. (2014, September).

Jhu-isi gesture and skill assessment working set (jigsaws): A surgical activity dataset for human motion modeling

Paper presented at the meeting of MICCAI workshop: M2cai (Vol. 3). New York, NY.

[本文引用: 1]

[13]

Gruebler, A., & Suzuki, K. (2014).

Design of a wearable device for reading positive expressions from facial emg signals

IEEE Transactions on Affective Computing, 5(3), 227-237.

DOI:10.1109/T-AFFC.5165369    URL     [本文引用: 1]

[14]

Hamedi, M., Salleh, S.-H., Astaraki, M., & Noor, A. M. (2013).

EMG-based facial gesture recognition through versatile elliptic basis function neural network

Biomedical Engineering Online, 12, 73.

DOI:10.1186/1475-925X-12-73    PMID:23866903     [本文引用: 1]

Background: Recently, the recognition of different facial gestures using facial neuromuscular activities has been proposed for human machine interfacing applications. Facial electromyograms (EMGs) analysis is a complicated field in biomedical signal processing where accuracy and low computational cost are significant concerns. In this paper, a very fast versatile elliptic basis function neural network (VEBFNN) was proposed to classify different facial gestures. The effectiveness of different facial EMG time-domain features was also explored to introduce the most discriminating.;Methods: In this study, EMGs of ten facial gestures were recorded from ten subjects using three pairs of surface electrodes in a bi-polar configuration. The signals were filtered and segmented into distinct portions prior to feature extraction. Ten different time-domain features, namely, Integrated EMG, Mean Absolute Value, Mean Absolute Value Slope, Maximum Peak Value, Root Mean Square, Simple Square Integral, Variance, Mean Value, Wave Length, and Sign Slope Changes were extracted from the EMGs. The statistical relationships between these features were investigated by Mutual Information measure. Then, the feature combinations including two to ten single features were formed based on the feature rankings appointed by Minimum-Redundancy-Maximum-Relevance (MRMR) and Recognition Accuracy (RA) criteria. In the last step, VEBFNN was employed to classify the facial gestures. The effectiveness of single features as well as the feature sets on the system performance was examined by considering the two major metrics, recognition accuracy and training time. Finally, the proposed classifier was assessed and compared with conventional methods support vector machines and multilayer perceptron neural network.;Results: The average classification results showed that the best performance for recognizing facial gestures among all single/multi-features was achieved by Maximum Peak Value with 87.1% accuracy. Moreover, the results proved a very fast procedure since the training time during classification via VEBFNN was 0.105 seconds. It was also indicated that MRMR was not a proper criterion to be used for making more effective feature sets in comparison with RA.;Conclusions: This work was accomplished by introducing the most discriminating facial EMG time-domain feature for the recognition of different facial gestures; and suggesting VEBFNN as a promising method in EMG-based facial gesture classification to be used for designing interfaces in human machine interaction systems.

[15]

Hess, U. (2009). Facial EMG. Methods in social neuroscience (pp.70-91).

NY:

The Guilford Press.

[本文引用: 1]

[16]

H?fling, T. T. A., Gerdes, A. B., F?hl, U., & Alpers, G. W. (2020).

Read my face: Automatic facial coding versus psychophysiological indicators of emotional valence and arousal

Frontiers in Psychology, 11, 1388.

DOI:10.3389/fpsyg.2020.01388    PMID:32636788     [本文引用: 1]

Facial expressions provide insight into a person's emotional experience. To automatically decode these expressions has been made possible by tremendous progress in the field of computer vision. Researchers are now able to decode emotional facial expressions with impressive accuracy in standardized images of prototypical basic emotions. We tested the sensitivity of a well-established automatic facial coding software program to detect spontaneous emotional reactions in individuals responding to emotional pictures. We compared automatically generated scores for valence and arousal of the Facereader (FR; Noldus Information Technology) with the current psychophysiological gold standard of measuring emotional valence (Facial Electromyography, EMG) and arousal (Skin Conductance, SC). We recorded physiological and behavioral measurements of 43 healthy participants while they looked at pleasant, unpleasant, or neutral scenes. When viewing pleasant pictures, FR Valence and EMG were both comparably sensitive. However, for unpleasant pictures, FR Valence showed an expected negative shift, but the signal differentiated not well between responses to neutral and unpleasant stimuli, that were distinguishable with EMG. Furthermore, FR Arousal values had a stronger correlation with self-reported valence than with arousal while SC was sensitive and specifically associated with self-reported arousal. This is the first study to systematically compare FR measurement of spontaneous emotional reactions to standardized emotional images with established psychophysiological measurement tools. This novel technology has yet to make strides to surpass the sensitivity of established psychophysiological measures. However, it provides a promising new measurement technique for non-contact assessment of emotional responses.Copyright ? 2020 H?fling, Gerdes, F?hl and Alpers.

[17]

Jing, L., & Tian, Y. (2020).

Self-supervised visual feature learning with deep neural networks: A survey

IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(11), 4037-4058.

DOI:10.1109/TPAMI.2020.2992393    URL     [本文引用: 1]

[18]

Larsson, G., Maire, M., & Shakhnarovich, G. (2017, July).

Colorization as a proxy task for visual understanding

In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6874-6883). Hawaii, Hawaii Convention Center.

[本文引用: 1]

[20]

Lee, P., Uh, Y., & Byun, H. (2020, April).

Background suppression network for weakly-supervised temporal action localization

In Proceedings of the AAAI conference on artificial intelligence (Vol. 34, pp. 11320-11327). Vancouver, Canada.

[本文引用: 1]

[21]

Lee, Y. J., Ghosh, J., & Grauman, K. (2012, June).

Discovering important people and objects for egocentric video summarization

In 2012 IEEE conference on computer vision and pattern recognition (pp. 1346-1353). Providence, USA.

[本文引用: 1]

[22]

Li, J., Dong, Z., Lu, S., Wang, S.-J., Yan, W.-J., Ma, Y., Liu, Y., Huang, C., & Fu, X. (2022).

CAS (ME) 3: A third generation facial spontaneous micro-expression database with depth information and high ecological validity

IEEE Transactions on Pattern Analysis and Machine Intelligence, 45(3), 2782-2800.

[本文引用: 1]

[23]

Li, X., Cheng, S., Li, Y., Behzad, M., Shen, J., Zafeiriou, S., Pantic, M., & Zhao, G. (2022).

4DME: A spontaneous 4D micro-expression dataset with multimodalities

IEEE Transactions on Affective Computing Early Access, 1-18. https://doi.org/10.1109/TAFFC.2022.3182342

URL     [本文引用: 1]

[24]

Li, X., Liu, S., de Mello, S., Wang, X., Kautz, J., & Yang, M.-H. (2019).

Joint-task self-supervised learning for temporal correspondence

Advances in Neural Information Processing Systems, 32.

[本文引用: 1]

[25]

Li, X., Pfister, T., Huang, X., Zhao, G., & Pietik?inen, M. (2013, April).

A spontaneous micro-expression database: Inducement, collection and baseline. In 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition

Shanghai, China. https://doi.org/10.1109/fg.2013.6553717

URL     [本文引用: 1]

[26]

Liong, S.-T., See, J., Wong, K., & Phan, R. C.-W. (2016, November).

Automatic micro-expression recognition from long video using a single spotted apex

In Computer Vision-ACCV 2016 Workshops: ACCV 2016 International Workshops (pp. 345-360). Taipei, Taiwan.

[本文引用: 1]

[27]

Liu, D., Jiang, T., & Wang, Y. (2019, June).

Completeness modeling and context separation for weakly supervised temporal action localization

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1298-1307). Long Beach, USA.

[本文引用: 1]

[28]

Long, F., Yao, T., Qiu, Z., Tian, X., Luo, J., & Mei, T. (2019, June).

Gaussian temporal awareness networks for action localization

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 344-353). Long Beach, USA.

[本文引用: 1]

[29]

Moilanen, A., Zhao, G., & Pietik?inen, M. (2014, August).

Spotting rapid facial movements from videos using appearance-based feature difference analysis

In Proceedings-International Conference on Pattern Recognition (pp. 1722-1727). Stockholm, Sweden. https://doi.org/10.1109/ICPR.2014.303

URL     [本文引用: 1]

[30]

Pan, H., Xie, L., & Wang, Z. (2021, October).

Spatio- temporal convolutional attention network for spotting macro-and micro-expression intervals

In Proceedings of the 1st Workshop on Facial Micro-Expression: Advanced Techniques for Facial Expressions Generation and Spotting (pp. 25-30). New York, NY.

[本文引用: 1]

[31]

Pathak, D., Kr?henbühl, P., Donahue, J., Darrell, T., & Efros, A. A. (2016, June).

Context encoders: Feature learning by inpainting

In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2536- 2544). Las Vegas, Nevada.

[本文引用: 1]

[32]

Perusquía-Hernández, M., Dollack, F., Tan, C. K., Namba, S., Ayabe-Kanamura, S., & Suzuki, K. (2021, December).

Smile action unit detection from distal wearable electromyography and computer vision

In 2021 16th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2021) (pp. 1-8). Jodhpur, India.

[本文引用: 1]

[33]

Qu, F., Wang, S.-J., Yan, W.-J., Li, H., Wu, S., & Fu, X. (2018).

CAS (ME)2: A database for spontaneous macro-expression and micro-expression spotting and recognition

IEEE Transactions on Affective Computing, 9(4), 424-436.

DOI:10.1109/T-AFFC.5165369    URL     [本文引用: 1]

[34]

Rinn, W. E. (1984).

The neuropsychology of facial expression: A review of the neurological and psychological mechanisms for producing facial expressions

Psychological Bulletin, 95(1), 52-77.

PMID:6242437     [本文引用: 1]

[35]

Sato, W., Murata, K., Uraoka, Y., Shibata, K., Yoshikawa, S., & Furuta, M. (2021).

Emotional valence sensing using a wearable facial EMG device

Scientific Reports, 11(1), 5757.

[本文引用: 1]

[36]

Schultz, I., & Pruzinec, M. (2010).

Facial expression recognition using surface electromyography (Unpublished doctoral dissertation)

Karlruhe Institute of Technology.

[本文引用: 1]

[37]

Sun, B., Cao, S., Li, D., He, J., & Yu, L. (2020).

Dynamic micro-expression recognition using knowledge distillation

IEEE Transactions on Affective Computing, 13(2), 1037-1043.

DOI:10.1109/TAFFC.2020.2986962    URL     [本文引用: 1]

[38]

Torre, F. D. l., Simon, T., Ambadar, Z., & Cohn, J. F. (2011, October).

Fast-FACS: A computer-assisted system to increase speed and reliability of manual FACS coding

In Affective Computing and Intelligent Interaction: 4th International Conference (pp. 57-66). Springer Berlin Heidelberg.

[本文引用: 1]

[39]

Vishwakarma, S., & Agrawal, A. (2013).

A survey on activity recognition and behavior understanding in video surveillance

The Visual Computer, 29(10), 983-1009.

DOI:10.1007/s00371-012-0752-6    URL     [本文引用: 1]

[40]

Wang, S.-J., He, Y., Li, J., & Fu, X. (2021).

MESNet: A convolutional neural network for spotting multi-scale micro-expression intervals in long videos

IEEE Transactions on Image Processing, 30, 3956-3969. https://doi.org/10.1109/tip.2021.3064258

DOI:10.1109/TIP.2021.3064258    URL     [本文引用: 1]

[41]

Wang, S.-J., Li, B.-J., Liu, Y.-J., Yan, W.-J., Ou, X., Huang, X., Xu, F., & Fu, X. (2018).

Micro-expression recognition with small sample size by transferring long-term convolutional neural network

Neurocomputing, 312, 251-262.

DOI:10.1016/j.neucom.2018.05.107    URL     [本文引用: 1]

[42]

Wang, S.-J., Wu, S., Qian, X., Li, J., & Fu, X. (2017).

A main directional maximal difference analysis for spotting facial movements from long-term videos

Neurocomputing, 230, 382-389.

DOI:10.1016/j.neucom.2016.12.034    URL     [本文引用: 1]

[43]

Xia, B., Wang, W., Wang, S., & Chen, E. (2020, October).

Learning from macro-expression: A micro-expression recognition framework

In Proceedings of the 28th ACM International Conference on Multimedia (pp. 2936-2944). Lisbon, Portugal.

[本文引用: 2]

[44]

Yan, W.-J., Li, X., Wang, S.-J., Zhao, G., Liu, Y.-J., Chen, Y.-H., & Fu, X. (2014).

CASME II: An improved spontaneous micro-expression database and the baseline evaluation

Plos One, 9(1), Article e86041.

[本文引用: 1]

[45]

Yan, W.-J., Wu, Q., Liang, J., Chen, Y.-H., & Fu, X. (2013).

How fast are the leaked facial expressions: The duration of micro-expressions

Journal of Nonverbal Behavior, 37(4), 217-230.

DOI:10.1007/s10919-013-0159-8    URL     [本文引用: 1]

[46]

Yan, W.-J., Wu, Q., Liu, Y.-J., Wang, S.-J., & Fu, X. (2013, April).

CASME database: A dataset of spontaneous micro-expressions collected from neutralized faces. In 2013 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition

Shanghai, China.

[本文引用: 1]

[47]

Yang, B., Wu, J., Zhou, Z., Komiya, M., Kishimoto, K., Xu, J., Nonaka, K., Horiuchi, T., Komorita, S., Hattori, G., Naito, S., & Takishima, Y. (2021, October).

Facial action unit-based deep learning framework for spotting macro-and micro-expressions in long video sequences

In Proceedings of the 29th ACM International Conference on Multimedia (pp. 4794-4798). Chengdu, China.

[本文引用: 1]

[48]

Yu, W.-W., Jiang, J., & Li, Y.-J. (2021, October).

LSSNet: A two-stream convolutional neural network for spotting macro-and micro-expression in long videos

In Proceedings of the 29th ACM International Conference on Multimedia (pp. 4745-4749). Chengdu, China.

[本文引用: 1]

相關知識

微型計算機:真的準確嗎?詳解BIA生物電阻抗分析法
最新肌力分級標準及其應用解析
模特的面部表情訓練技巧
微熱點:疫情影響下云健康行業(yè)關注度分析報告.pdf
基于腦電數(shù)據(jù)與面部表情影像的抑郁癥病癥輔助識別方法技術
電子陶瓷行業(yè)分析報告
人體成分分析實驗報告.pptx
標準人體成分分析報告.pptx
TMG肌肉狀態(tài)測試分析儀
魔鏡面部瑜伽電腦版

網(wǎng)址: 微表情面部肌電跨模態(tài)分析及標注算法 http://www.gysdgmq.cn/newsview639782.html

推薦資訊