人最原始的能力为什么是重要的?换句话说,人的眼耳口鼻五官四肢所带来的运动、情绪、感知、劳动,进而品格、毅力,为什么是重要的和可持续的?近期人工智能所引发的多模态信息、具身智能可能为我们理解这个教育问题提供了另外一种思路。
如果将人的眼耳口鼻五官四肢所能感受和处理的信息按从低到高的层级排列的话,可以简单分为视频、音频、语言、图画、符号、文字、图示、数学公式等。有研究表明,动物最低级的视觉(眼睛)信息进化了5亿年,相对来说,科学符号只有2000年,现代科学与数学公式只有几百年历史,我们通过12年分科学习的体系是工业革命后的产物。进化越充分的低级信息数量越大、信息密度越低,但是越接近人的本能和原始能力,而产生时间越晚的高级信息效率越高、信息密度越高,却越远离人的原始能力。
人是如此,社会工具的进化更是如此。一个新工具的产生,首先要考虑的是让新一代什么都不会的年轻人能更高效地使用,而不是只有经过20年训练的人才会使用。因此,当一个经过严格训练使用老式工具的“工具人”基础人体能力退化后,新的工具更适合最具备基础人体能力的人,而不是相反。
目前,机器人跑马拉松和机器人当保姆、保洁、保安、快递员,比计算机自动编程要难多了,因此才有了具身智能的热潮,具身智能主要涉及多模态数据的处理能力。
多模态数据的处理,简单说就包含前面所述的低级和高级信息,然而人类处理以上信息更高效和更智能的原因在于采用了与计算机完全不同的处理方式。例如,计算机处理总是通过CPU或者GPU来进行,但人类是通过眼耳口鼻五官四肢分工完成的。人类在通过五官四肢与器官收集信息的同时,还能对其进行分类,完成比智能体更智能的去除幻觉作用。在这个过程中,高级信息的信息量极少效率极高,低级信息虽然信息量极大效率极低,却起到了分支开关的作用,联合起来形成了人的具身智能。例如,教师的大脑如果接到信号——一个学生聚精会神,就会直接输出“是个认真的好学生”的结论,但是低级视觉信息还观察到,同学们在讨论问题时这个孩子很少发言,可能会有不人生就是博官方平台合群的直觉,这个直觉就会将教师的思考分支到另外一个判断计算模型中。
“信息即负熵”,人类发现的科学和发明的技术与工具,都试图揭示世界的本质原因,用最高级的形式表达最本质的意义,因此人类对科技有执念,也希望科技能够替代人类的重复劳动,然而真理向前一步往往就是谬误。信息在生成过程中,是需要人做功的,在做功的过程中是需要不同类别的信息分工协作的,而“作为人”部分的具身智能,往往信息含量少、密度低,却是关键少数信息。人类揭示自然的奥秘还是要服务于人,也要靠人去揭示,人工智能更是如此。人工智能在模拟与学习人类行为的过程中,抽象出来的高度简化的“高级信息”,很有可能是误导的和缺少指向的,而人类保持的原始具身能力对训练和升级过程就极为重要,在教育领域尤为如此,教师的具身能力往往比高度简化的数据更具有意义。
借用维特根斯坦所说的“凡是能够说的,都能够说清楚;凡是不能说的,必须保持沉默”,在教育领域“凡是能够用数据表达的,都能够表达清楚;凡是不能表达的,必须保持教师的具身”。教育的价值是由人的价值决定的,而人的价值很大程度上是具身价值。
魏忠.教师的具身价值——多模态信息、具身智能与教育启示[J].中国信息技术教育,2025(14):14.