【摘要】随着深度学习等人工智能技术的快速发展,当前应用于教育场景的人脸识别技术不仅能“识面知人”,还能“识面知心”--通过识别学习者外显的面部表情,探测内隐的情绪状态,从而直观呈现学习者的课堂参与和学习投入程度。这一新兴技术风尚已有应用于大学课堂的趋势,但其科学基础尚存在争议,面部表情与内在情绪有着复杂而非一一对应的关联。与“精准识别”相伴的是一个难以摆脱的技术悖论。情绪识别越是精准,越容易将课堂文化引向控制和规训,看似开启了“美丽新世界”,实则打开了充满着风险和不确定性的“潘多拉魔盒”。在大学课堂应用人脸情绪识别技术,对学生的内心情绪进行制度化的窥探和导引,学生将被迫进行智识活动之外的情感劳动,还可能导致师生之间情感互动的异化。亟需深入大学课堂进行实地研究,重视人脸情绪识别技术与人的互动,尤其是技术力量对课堂文化的重塑以及师生身心体验的渗透,从而更深入地揭示这一技术应用于课堂所带来的复杂影响,为这一技术划定边界和底线。
智能行为管理系统每隔30秒扫描整个教室、走廊甚至是洗手间,标明你在做什么并且捕捉这些标签。即便你抹掉这些标签,系统还是会扫描你的眼睛和脸。所有这些数据都会存储并进行交叉检查,归入你的个人档案。教室天花板下有一堆摄像头。它们主要追踪6件事:读、写、举手、起立、认真听讲和走神。每隔一会儿,它们就扫描整个教室,注视着我们的脸部情绪,究竟是开心、难过、害怕、厌烦还是生气。
上面这段由塞尔温(Neil Selwyn)及其合作者创作“社会科学小说”(social science fiction)选取自《学习、媒体和技术》(Learning, Media andTechnology)2020年第1期,讲述了2030年的学校里发生的一个片段——“监视我们学习的机器”。事实上,作者想象中十年之后才会发生的这一幕已经悄然潜入现实的校园生活。
一、人工智能浪潮中的人脸情绪识别
随着深度学习(deep learning)等人工智能技术的快速发展,人脸识别技术已能够借助计算机视觉算法(Computer-vision algorithms)通过人们的面部微表情,声音中的语气甚至走路的姿态监测个体情绪状态。在鉴别优秀员工、评估病人的痛苦以及追踪学生在课堂上的参与度等方面,人脸情绪识别技术正在被迅速地商业化。在教育领域,人脸情绪识别技术可以通过识别学习者的面部表情探测其内心情绪状态,分析学习者的课堂参与和学习投入程度,以“智慧课堂管理系统”“课堂呵护系统”“听课质量管理系统”等名目进入校园。
2019年9月,地处南京的中国药科大学在两间教室试点安装了人脸识别系统。除了能自动识别学生的出勤情况外,这种人脸识别系统还能够实现对学生课堂听讲情况的全程监控,“学生是否认真听讲,课堂上是否抬头低头,抬头低头了几次,抬头低头了多长时间,低头是否在玩手机,是否闭眼打瞌睡,都逃不过人脸识别系统的‘法眼’”。
这一事件引发了诸多争议,集中在“监控”还是“监视”、“管控”还是“管理”等诸多方面。基于人脸情绪识别技术进行课堂教学监控也已经成为人工智能领域的热门研究主题之一。研究者构建了“基于表情识别的智慧教室授课评估系统”、“基于人脸识别的课堂教学监控系统”以及“基于学生情绪动态识别的课堂教学”。可以说,人脸情绪识别技术已有成为一种新技术风尚的趋势,成为推进“智慧课堂”建设的“前沿方案”之一。
目前学界还少有研究者就人脸情绪识别技术对大学课堂生活造成的可能冲击进行系统反思。本文尝试基于对情绪识别技术科学基础的讨论,结合相关研究和实践,探索这一技术对大学课堂文化以及师生身心状态的复杂影响,以期助益于“大学课堂是否需要采用人脸识别技术”以及“应当为人脸识别技术划定何种边界和底线”等主题讨论的深入。
二、人脸情绪识别
技术的科学基础及相关争议
传统的人脸识别技术仅仅停留在“识面知人”,即基于人脸生物特征数据,利用计算机技术的对比分析功能来辨别个体身份,实现身份认证。这类人脸识别技术大都用于考勤和安全保障,即便应用于教育场景,也难以触及课堂生活的核心--教与学。面部情绪识别(Facial Emotion Recognition,FER)改变了这一局面。
在日常生活中,人与人之间的交流常常需要通过对方的体态和表情揣测情绪。当下的人脸识别技术不仅能基于人的脸部信息进行身份识别,还能通过人脸检测、表情特征提取、表情分类,获取学习者的情绪状态信息,判断学习者内隐的情绪状态。支撑面部情绪识别的技术包括步态分析(gait analysis)、语音分析(voice analysis)以及最常见的迭代--脸部追踪技术(face-tracking technology),即通过连续跟踪人们的面部表情训练算法(algorithms)。简而言之,人脸识别技术已经不仅能“识面知人”,还能“识面知心”。
人类的内在情绪(emotion)可以通过针对面部表情(expression)的一套算法来探测,这是人脸识别技术得以开发和应用的前提。但面部表情和内在情绪存在一一对应的关系吗?
对人类面部表情和内在情绪关系的研究由来已久。
达尔文(Charles Darwin)在1872年出版的《人与动物的情绪表达》中就已关注不同物种的内在情绪是如何外化的。1969年,美国心理学家艾克曼(Paul Ekman)等人在《科学》(Science)上发表《情绪的面部呈现中的泛文化元素》一文,认为可以通过面部表情推断出人类情绪状态,并提出了不同文化中都会出现的六种情绪:快乐、恐惧、厌恶、生气、惊讶和难过。1978年,艾克曼和弗里森(Wallace Friesen)开发了著名的面部动作编码系统(Facial Action Coding System,FACS),用于检测人脸表情的细微变化。尽管科学家们普遍认可面部表情和内在情绪紧密相关,但对两者究竟以何种方式关联存在不小的争议。
一些研究者旗帜鲜明的对艾克曼普适的六情绪模型提出了质疑。1994年,拉塞尔(James A.Russell)在《心理集刊》发文指出“众所周知,情绪(emotion)可以由面部表情(facial expressions)来分辨。
面部表情和情感标签是可能相连的,但这种联系在不同文化情境下是可变的。美国西北大学的心理学教授巴雷特(Lisa Feldman Barrett)批评艾克曼在实验之前就已经为参与实验的学生区分了情绪标签,诱导被试选择特定的答案。在最近一篇文章中,巴雷特及其合作者认为“确定特定的情绪状态不能枉顾情境、身体以及文化。从微笑推断幸福、怒容推断生气、蹙眉推断悲伤是不可能的,而现在的技术则试图建立在这些被误解的科学事实基础之上”。
巴雷特还在一次采访中犀利的指出,“它们可以识别皱眉,但是这和识别生气可不是一回事。”数据显示,不足30%的人在生气时会皱眉。皱眉不是生气的唯一表现,而只是生气的一种表现。除此以外,他们不生气的时候也皱眉。阿兰?考恩(Alan Cowen)等人也认为艾克曼提出的六情绪模型过于简化了情绪的复杂性,需要一种更丰富的情绪类型分类。比如,快乐就不应被视为一种单一的情绪,研究者们应当把情绪类别细化到它们的组成部分。“快乐”这把大伞下面有欣喜、愉快、慈悲、骄傲等等。每一种表情都可能不同于另一种或者是重叠的。
简而言之,面部表情和内在情绪之间的关系是不可靠的(同样的情绪并不总是以同样的方式表达)、不特定的(同样的表情未必真的在表达同样的情绪),不能普遍化的(不同文化和情境的影响还没有被充分的记录)。情绪识别建立在“和测谎仪(Lie detectors)相同的潜在假定上”:身体的物理性移动和状态可以可信的推断一个人内在的心理状态,而“这些产品建基于理智的流沙之上”。说到底,尽管面部表情和内在情绪存在紧密关联,但这种关联是复杂的,并非一一对应的关系。
三、精准识别的技术陷阱
道格拉斯?希文(Douglas Heaven)曾在《自然》(Nature)上的一篇评论文章中指出,“尽管心理学家对于通过面部表情能否准确识别情绪存在争论,情绪识别的公司却已经等不及心理学家达成共识。”在资本诱惑下,教育领域的人工智能公司也同样如此,致力于通过识别学生的面部表情,探测其内心情绪状态,实现“教育过程中的学生状态‘数据化’”,这对学校管理者具有很强的吸引力。在一所学校的招生宣传中,对在校园和课堂应用的“听课质量管理系统”做出了如下描述:
通过多台人脸识别相机在学校关键卡口的布防,校方即可主动的记录学生在学校的活动轨迹。在教室、图书馆等地点的时间长度与在操场、寝室等地的时间长度分别对应着学生的学习时间和休息时间。行为轨迹配合学生的表情信息,总体评估学生的学习强度,心理压力等。
在传统教育模式下,教师对学生的学习压力和学习强度的管理是通过教师模糊的判断来进行的。什么时候学生学习压力过大,需要适当减压;什么时候学生学习状态正好,可以给他更多的拔高练习,全凭老师的感觉。在启用了本系统后,教师可以根据学生学习时间的长短,结合学生的情绪数据,还有听课质量一起来综合判断学生是否处于压力过载状态。(选取自四川一所学校的招生宣讲PPT。为保护隐私,此处隐去该学校名)
促进学生学习或者为教师教学改进提供数据支持,这是应用人脸情绪识别技术近乎天然的正当理由。在这段描述中,“听课质量管理系统”是客观、理性、高效、精准的,远远优于教师的“模糊判断”。但所谓“听课质量管理系统”真的如此完美吗?
如若这一技术无法由面部表情精准识别内心真实情绪,计算出的学生情绪数据准确度不高,那么教师对大学生课堂参与和投入情况的认知就很容易被扭曲。这种难以精准识别内心情绪状态的技术就会沦为鸡肋,失去应用于课堂的正当性。假若随着技术迭代,人脸情绪识别技术通过面部表情识别内心情绪的精准度日益提升,是不是就能够完美的辅助大学教师教学,促进大学生学习了呢?当前,情绪识别技术确实显现出这样的趋势。听课过程中学生的个人情绪、一举一动、一颦一笑,都可以得到越来越准确地记录和计算,用于“客观”评估课堂参与或者学习效果。
但是,“精准”的人脸情绪识别技术依赖于一套人为设定的精细算法。
这套算法为课堂上的言语和行动划定边界,界定着什么是正当,什么是越轨、什么应该受到惩罚、什么应该得到鼓励和表扬。这必然在无形之中诱导学生做出符合既定框架的情绪和行为表达。在技术进步的欢呼声中,人们往往忽视了愈加“精准”的人脸情绪识别技术伴随着更具渗透性的控制术。避免惩罚和获得表扬的最佳策略就是作伪,依照情绪识别的算法机制进行表演,刻意地隐藏或者虚假表现出某种情绪。在这种生态下,学生很难自在地表现出真实的情绪。可见,在人脸情绪识别技术的科学基础并不牢靠的情况下,贸然应用以艾克曼普适的六情绪识别模型为基础的情绪识别技术,无论其识别是否精准,都会伴随一个难以忽视的悖论--情绪识别越是精准,越容易将课堂文化引向控制和规训。“识别的悖论”提醒我们关注这一技术与真正具有教育意义的教学活动之间的张力。
人脸情绪识别技术在课堂的应用往往以监测、控制、评价为目的,寄希望于借助外部控制打造“完美课堂”。但学习的实践是“对话的实践”,即“同新的世界对话,同新的他人对话,同新的自身对话”。
真正富有教育性的课堂文化不可能借由外部技术塑造,一个精准、毫无差错的课堂未必是完美的课堂。借用这类新技术去发现、计算和纠正微小的不当行为,反而导向逼仄、压抑的课堂文化,遏制课堂的内在活力与创新空间。从根本上说,人脸识别系统之所以引起争议,还是让学生体会到了“不被信任和不被尊重的滋味”。当学习者在不停歇的监测下难以感受到信任和尊重,内心也就很难向教师和学习伙伴自然敞开,无法自如表达情绪。这样的人脸情绪识别技术将禁锢学生的心灵,抑制学生真实表达自我的意愿和勇气。
以促进学生学习和教师教学为目标的人脸情绪识别技术反而容易制造一个以“精准识别”为中心的技术主义陷阱,这迫使我们反思这一技术究竟为课堂生活开启了“美丽新世界”(《美丽新世界》(BraveNew World)是英国作家阿道斯?赫胥黎于1932年发表的反乌托邦作品。故事设定为公元2540年的伦敦,描述了与当今社会迥异的“文明社会”的一系列科技,如人类试管培植、睡眠学习、心理操控、建立婴儿条件反射等)还是打开了“潘多拉魔盒”(“潘多拉魔盒”为希腊典故,寓指“灾祸之源”)。
四、情感劳动:识别消极情绪的意外后果
现有的人脸情绪识别技术通过区分积极情绪(如快乐、兴奋等)和消极情绪(如困惑、厌烦等),推断教师课堂教学或学生学习效果,即将学生表现出的积极情绪视同于课堂教学或学习效果好,而消极情绪则表征课堂教学或学习效果不佳。这一识别逻辑简化了学习者情绪的复杂性,也忽略了消极情绪可能具有的积极价值。
已有研究证实,学生在课堂中所呈现的情绪是复杂多样的,远非几种情绪类别能够涵盖。莱因哈德?佩可伦(Reinhard Pekrun)等人曾提出一个常常被教育心理学研究者忽视的概念--学业情绪(academic emotions)。
研究发现,学生在学习情境下体验着非常丰富的情绪,有享受、希望、骄傲、解脱、生气、焦虑、羞愧、绝望和厌倦等。其中焦虑是最常见的,总体上相比于积极的情绪,消极的情绪更容易发生。
研究者需要认识到学习情境下学业情绪的多样性。如果只识别六种情绪,就否认了学生其他学业情绪的价值。不论是积极的还是消极的情绪表达,都是学生对课堂真实的回应,具有相应的认知和情感交流意义。2017年,丽萨?帕斯格塔夫(Liisa Postareff)等学者在特里格威尔(Keith Trigwell)提出的“积极情绪感知”(Positive Emotion Perception)和“消极情绪感知”(Negative Emotion Perception)的基础上,探索对不同的大学生个体而言,消极情绪有没有可能促进“深度学习”(deep approach to learning)。
研究发现,在大学生学习过程中,体验到强烈焦虑和挫败等“消极情绪”的学习者可以和更多体验到积极情绪的学习者一样取得学业成就,甚至还要更快一些。仅仅识别几种情绪,并将这种情绪识别的结果用于标定学生学习专注度或课堂表现优劣,显然忽视了学生情绪的复杂性,也会给师生的课堂生活蒙上一层不确定的阴影。
人脸情绪识别技术对消极情绪的识别还可能会给课堂生活带来“意外后果” (Unanticipated Consequences)。
美国社会学家霍克希尔德(Arlie Hochschild)在其经典之作《心灵的整饰》中提出了情感劳动(emotional labor)这一概念,揭示了商业化和资本的力量对情感世界的侵袭。
空姐和收账员是“描述情感劳动的两个极端”,“劳动者的问题是如何制造和维持恰当的感受”,“通过深层扮演的艺术,我们可以把感受变成可以使用的工具。”商业化的职业角色要求空姐保持微笑,收账员表现出冷酷。人脸情绪识别技术则可能诱导学生对情绪进行自我审查,有意抑制、放大或者表演出某种情绪,而“抑制感情常常演变成个人压力”。霍克希尔德还借用弗洛伊德对焦虑的分析,特别指出“任何情绪都有信号功能”--“我们所有人都会试着去感受,以及假装去感受,但是,当我们独处时,却很少这么做。当与其他人交换情感姿态和情感信号的时候,我们才会最为频繁地这么做。”情感劳动为我们分析人脸情绪识别技术对师生身心状态的影响提供了一种富有启发性的分析视野。
将人脸情绪识别技术应用到课堂会无形中增加学生的心理压力,抑制真实情绪的表达,迫使学生们进行智识活动之外的情绪整饰,进行频繁、高强度的情感劳动,“情感的内在体验和外部表达之间的失调”有可能成为一种常态,甚至引发一系列身心健康问题。
迪特尔?察普夫(Dieter Zapf)指出过度情绪劳动可能导致情绪枯竭(emotional exhausted)和个性的丧失(dispersonization)。如若直接将学生被定义为“正面”的情绪视为加分项,将学生被定义为“负面”的情绪视为减分项,学生真实的自我呈现将面临更多的阻碍,需要更努力的进行情绪整饰。当应用人脸情绪识别技术的课堂呈现出一种虚假的课堂情绪景观,究竟会将大学生的课堂生活引向何方?
更让人忧虑的是,如若这套系统不仅被用于教师评价学生,还作为管理者评价教师教学成效的依据,教师也将受限于一套算法。
目前,已经有人工智能企业既开发监控学生的“AI助教系统”,也开发检测老师行为的新产品,“通过分析老师的影响,计算正向情绪占比与细分指数--专注指数、好感指数、笑容指数和放松指数,甚至一些妆容、姿态上的评语和建议。”
而且,在当下的大学课堂,有老师要求非常宽松,给分高,学习过程较为容易的“水课”,也有老师要求高,给分严格,学习过程较难的课程。一些大学生为了追求更高的绩点,在明知课程内容“水分”大的情况下,毅然选择甚至疯抢水课。在这类轻松的课堂中,学生不需要付出多大的努力便可以拿到高分,自然在学习过程中很少表现出消极情绪。而在富有挑战性的“金课”上,学生反而容易表现出困惑、焦虑等消极情绪。一旦人脸情绪识别技术进入大学课堂,并以识别的结果评判学生学习或教师教学效果,将可能会导致真正意义上的“金课”少有人问津,加剧“劣币驱逐良币”的恶性循环。
通过计算表情来探测情绪,对人的内心活动进行制度化的窥探和引导,还可能会异化师生之间的情感互动,迫使互动关系走向非个人化、规范化和制度化。长期被技术支配的工具化处境可能迫使教师逐步的从“自我疏离”走向“自我异化”,甚至引向人性的压抑和扭曲。在师生情绪和情感的自然表达和流露被抑制的状况下,建构真诚、放松、自在的师生关系也就陷入重重困境。
有研究者指出:教育的复杂化通过简单的、线性的思维表现出来,师生甚至学校以及教育部门通过所谓的“高价值”数据来发现学生、教师存在的劣势从而横加改善。这样本末倒置的做法得到的只是人为需要的结果,而没有从人性的关怀上入手,使得数据早已失去了价值性依据,在不知不觉中被数字所左右。仅凭这些数据,学生的品德、思想等一些非智力因素是不能被观测的;教师的人格魅力也不能得到体现。对数据过于痴迷,只能是将教育与人的复杂性弱化,没有顾及教育的人性化,从而使师生之间的互动失去平衡。
教育活动不应走向单纯的技术取向,更不能臣服于外部技术,而需要保有“人性的关怀”,“‘按照教育的逻辑’考量‘技术’”。以冰冷的统计数字衡量教师的教学效果,会助长技术主义的教育倾向,抑制教师个体的自我觉察与反思能力,将本应生机勃勃、充盈着生成性和创造性的大学课堂引向压抑、空洞、虚假和功利化的表演场。
五、留白的教育价值
谷歌(Google)旗下的深度学习(Deep Mind)官网首页中写道:“假如解决一个问题会打开成千上万种解决方案(solutions),将会怎么样?”这里的解决方案或许也可以用“风险”来替换。人工智能技术在重塑人们生活方式和教育方式的同时,也在“‘分裂’出自己的对立面,甚至发展成为一种新的外在的异己力量”。如若缺乏严格的监管和可落地的伦理准则,与其说人脸情绪识别技术开启了一个“美丽新世界”,不如说它打开了一个难以预料后果的“潘多拉魔盒”。
作为一种“识面知心”的技术装置,人脸情绪识别技术建立在不牢靠的科学基础之上,忽视了不同文化下表情所关联的思维和伦理面向。已有研究证实,中国大学生的课堂“沉默”以及与此相关的学习和思维模式有着独特的“伦理附着性”。中国式优质课堂需要着力构建“倾听+参与”的文化,重视“延迟性质疑与解疑”所具有的中国教学价值。
按照固定算法设计的人脸情绪识别技术可能将诱导师生进行智识活动之外的情绪整饰,伴随着种种风险和不确定性,也与在教育生活中“给予人性以更自由的活动余地”南辕北辙。
人脸情绪识别技术还很容易导向一种技术主义的学校文化,强化教室中原有的权力秩序,在无形之中形塑了个体难以对抗的“算法黑箱”。这不仅与教育的民主价值背道而驰,全方位的控制与对个体内心的入侵也将侵蚀健康的人格和品性生长的土壤。与此同时,对学生表情识别的过程也是一个数据采集过程,一举一动都会被摄像头捕获。一旦被泄露,就“可能会侵犯到学生的隐私,给学生带来不良影响。”作为一种人工智能技术,人脸情绪识别同样需要面对应用于教育场域所必然伴随的隐私保护、安全与责任、算法歧视等问题。再者,人脸情绪识别技术究竟可以为大学课堂带来什么?这是一个值得我们深思的问题。越是能够精准识别表情的人脸情绪识别技术,越可能将大学课堂引向控制和规训,而不是自主和创造。
说到底,并非所有的“进步”都值得拥抱,恰恰相反,一些未经认真审视的“进步”反而会将教育引向技术主义的陷阱。
人脸情绪识别技术应用于大学课堂伴随的风险警醒我们反思这一技术内隐的“识别的悖论”,关注在教育活动中应用人工智能技术的伦理原则。
何怀宏提出,对人和智能机器之间关系的伦理思考,应倾向于“做减法而非做加法,即优先和集中地考虑规范智能机器的手段和限制其能力。”说到底,对学生学习或者教师教学的评价,有强烈的价值判断的面向,而非简单的事实判断。智能机器能够提供数据,但不能替代人进行评价,“人类将自己的价值判断完全托付给机器之日,大概也就是人类灭亡之时。”美国纽约大学今日人工智能研究中心(AI Now Institute at New York University)2019年年度报告直接指出,监管者应该在影响人们日常生活和获取发展机会的情境做重大决定时禁止使用情绪识别,比如决定谁有机会得到面试机会或者获得工作机会,保险的价格,病患痛苦的评估以及学生在学校的表现。唯有对人脸情绪识别技术保持清醒,才可能避免陷入技术主义的陷阱,化解这一新兴技术的风险。
正如帕尔默(Parker Palmer)在《教学勇气:漫步教师心灵》中所指出的:“真正好的教学不能降低到技术层面,真正好的教学来自于教师的自身认同与自身完整。”人脸情绪识别技术在大学课堂的应用,必须考虑应用的情境,考虑师生的自主自愿,考虑这一技术对课堂文化和师生身心健康的潜在影响。
在中国书画创作中,与西方绘画有很不同的一点--留白,即作画并不全然填满,而是根据所要创作的主体,留出一定的空白,为观者留出想象空间。“国画最重空白处”。与之相应的,大学课堂尤其需要注重留白,不过度干涉大学生的学习过程,为大学生留下更多自主空间,以“形式善意”培育健康、开放、富有活力和创造性的课堂文化。如杜威所言:“民主是一种共同生活方式,在共同生活中,互相自由协商支配一切,而不是力量支配一切”。在拟应用这一技术的高校应考虑设立专门的教育与人工智能伦理委员会,对其进行严格的伦理审议,更多倾听来自学生和教师的声音。
凯博文(Arthur Kleinman)指出,“因为身体被社会赋予秩序,可能应该被看作是社会控制的最基本形式”。而情感作为“人类本质的组成部分”也是社会控制的基本形式,是社会性的集中体现。
因此,对一种能够识别内心情绪(无论其精准与否)的技术力量的考察,必须重视其对师生身心状态的潜在影响。说到底,探索人脸情绪识别技术对大学课堂文化和师生身心状态的影响,就是要研究“组织我们的生活世界的社会力量是如何渗透(以及压迫)我们最私密的个人体验的”,教育实践又该如何回应人工智能技术浪潮的冲击。本文对人脸情绪识别技术的探索才刚刚开了个头。
亟须深入教学一线,回归师生的日常体验,探索人脸情绪识别技术对课堂文化的重塑以及师生身心体验的渗透,尤其是这一过程中师生的自主性和创造性,从而更深入地揭示这一技术应用于大学课堂所伴随的复杂影响,进而为技术力量划定边界和底线。
作者/重庆高教研究
程猛:男,安徽淮南人,北京师范大学教育学部教育基本理论研究院讲师,教育学博士,公共管理博士后,主要从事教育基本理论、教育社会学、教育人类学、教育管理与教育政策研究。