首页 » 备考资料 » 情境化评估:标准化考试的替代方案-多元智能理论

情境化评估:标准化考试的替代方案-多元智能理论

下面是今日美国到处可见的、人人熟悉的景象:几百个学生陆续涌进一个大考场,坐下来焦急地等待密封试卷拆封。指定时间一到,试卷立刻发下去,经过考官简短的考试说明,考试就正式开始。考场上十分安静,学生埋头用数支铅笔在答卷上画圆圈。几个小时以后,考试结束,考卷被收回。几个星期之后,记载着一组分数的成绩单,分别被寄到每个学生的家中和他们所申请的大学。一个早晨的考试结果,就这样变为决定每个学生未来最强有力的因素。

同样熟悉的情境发生在几个世纪前尚未工业化的社会里:10岁或11岁左右的少年,来到一名精通某种行业的师傅家里。起初这个孩子做仆人的工作,如帮助师傅做准备工作,或者在下班时打扫作坊。初始阶段,少年有机会观察师傅操作,而师傅则在一旁监督少年干活,以发现他的特殊天赋或严重的缺陷。几个月以后,徒弟开始参与该行业的业务。起初他只介入工作的外围,然后渐渐熟悉工作的全过程和全部技术。师傅根据传统的做法和少年的特殊才能及其愿望给予指导,使其从生手变成熟练工匠。最后,经过数年的督导和训练,少年就准备自立门户独自操作了。

虽然这只是两幕理想化的情境,但关注年轻人培训和评估的人士,都能很容易地辨认出来。事实上,它们可以说代表了两个极端。第一个场景里的“正规考试”模式,建立在客观的、无情境的评估方式基础之上,可以广泛地采用,并保证能得到类似的结果。第二个“师徒制”模式,则几乎只能在自然发生的、包含一种技艺的特殊情境下,才能实现。师傅对学徒的评估,除去根据该行业的技术加以分析外,也可能受到主观因素的影响,如师傅对学徒的个人看法、师傅和其他师傅之间的关系,或师傅所需要的其他服务等。

很明显,这两种评估形式满足各自不同的需要。当手工业实习是城市少年的主要就业形式时,师徒制评估是有意义的。正规考试则是现代的评估工具,用来比较成千上万接受学校教育的学生的表现。不过评估并不局限于以上两种典型的方式。中国尽管在很大程度上是农业社会,但用正规考试来选拔政府官员,却已经有2 000多年的历史。在我们这样高度工业化的社会里,在很多艺术行业、体育行业和科学研究领域中,一向采用的方式,也都是师徒制及其相伴随着的、依据情境来进行的评估。

因此,“正规考试”或“师徒制”的选择,并不完全由时代因素或社会生产方式决定。在我们今天的社会里,同样可以比目前更多地运用师徒制来评估。今天大多数观察家(包括我在内),对于那种往往过于极端且带有性别歧视的、强迫性的师徒制时代的一去不返,并不怀有惋惜之情。从多个方面看起来,现代的正规考试代表了公正的、更易于判断的评估形式。但是,师徒制模式的某些方面,和当今关于人们怎样学习的知识,如何才能更好地评估学习成绩的知识,是相当一致的。

我们的社会一向过分地支持正规考试的模式。但我坚信师徒制模式的学习和评估方式,即我称为“情境化学习”(contextualized learning)的方式,应该适当地再次引进到我们的教育体制中。以下先介绍标准化考试的起源,以及这种考试方式往往暗含着的典型的智能一元观。然后我将提出建议:对人类的智能心理和人类的学习,应持有比以往形成的概念和视野更开阔的观点。我在这里的任务,是切切实实地根据目前科学研究的发现,提出有助于实现启发式教育目标的教育形式和评估模式。本章的后半部分,将简略地谈谈“评估社会”的性质。

比内、考试社会和学校教育的统一观念

正规测验或考试的广泛运用,可以追溯到本世纪之初的巴黎,阿尔弗莱德·比内和他的同事从事的智力测验的工作(参见第1章)。比内的方法具有如此巨大的吸引力,以至于不久就主宰了美国的教育界和评估领域。确切地说,某些标准化考试,从加州成绩测验(California Achievement Test)[1]到学业评估测验(SAT),并非从形形色色的智力测验衍生而来。但是,若不是斯坦福-比内智力测验、军队阿尔法测试(Army Alpha)和各种韦克斯勒智力测验(Wechsler intelligence instruments)备受推崇,很难想象短短的几十年里,竟然涌现出这么多考试评估工具。

特别注重量化指标、信奉教育效率的美国,简直狂热到要为每一种可能存在的社会目标,制造出考试的方法。除了用于学生的标准化考试以外,我们还有用于评估教师、督学或导师、士兵和警官的考试。我们不仅仅将这些考试改头换面,用于评估学生的标准课程能力,还用于评估他们的公民能力和艺术能力。我们仅仅依靠简短的问答方式,评估人的性格、独裁倾向,甚至是否适合为其安排两性约会等等。美国已经快要变成“完全考试化的社会”了。我们可以这样概括它的特征:如果某一件事是重要的,就值得对此进行考试;如果某一件事无法通过考试得出结果,那么它可能就是不重要的。但是,后来极少数人开始对此表示怀疑,认为这种评估方式对于某些领域来说可能并不合适,或者不是最佳的办法。但大多数人忘记了,在智力测验出现之前,人们所乐意采用的评估方法,说不定能给我们一些启示。

对于《心理测量年鉴》(Mental Measurements Yearbooks)所描述的几千种正规测试方法试图加以综述,是相当冒险的事。但是为了指出这些测试评估方法的典型特征,冒这个险还是值得的。

美国的考试行业十分相信来源于基因、与生俱来的“原始潜能”。智商测试和学业评估测验等最受推崇的考试,都是用来测试这种现实的能力或潜在的能力及其表现。没有理由认为这些测试不能评估学到的技能,很多“成绩”测试的目的,就是检验这些技能。但对于评估原始的或潜在能力的测试来说,重要的是成绩很难通过它们得到提高,另外,这些测试结果也不是潜在能力的有效指标。大多数考试行业的权威人士认为,在能力和成绩测试中的表现,反映了人与生俱来的能力。

信奉测试的人士还倾向于接受一种关于人类心理发展的观点,即认为虽然年幼的个体比成熟的个体具备较少的知识和技能,但人类的心理行为却无法随着时间和人的成长,发生实质上的改变。这种观点使得测试的设计者对于不同年龄的人,都使用相同的测试方法。不但如此,他还理直气壮地声明,在某一个年龄发展阶段得到的数据,可以应用于后续年龄。这是因为参加测试者所要处理的,是相同范围和性质的心理或行为的问题。

大多数测试的设计者都偏爱高效、简单、容易操作的方法,这在一定程度上反映了美国所承受的科技压力,以及对简单化和节约经济的追求。早期的测试采用个别进行的方法,而且要花费好几个小时。现在则较为流行集体测试的方法。事实上现在每一种受到欢迎而广为采用的测试方法,都有其“简化”版。的确,一些正规智能测试最坚定的支持者,甚至希望进一步简化它们。如阿瑟·詹森支持“反应时间”(reaction time)的测量,迈克尔·安德森(Michael Anderson)注重感官的辨别能力,汉斯·艾森克(Hans Eysenk)则希望只检查脑电波的类型就能得出结果。受到遗传学革命影响的很多人,则希望通过鉴别关键的遗传基因或者染色体,控制人的潜在能力。

与对正规考试的坚定信念相伴随的,是我称为“学校教育统一观”(uniform view of schooling)的教育思想。按照这种观念,学生在学校里学习成绩的进步,应该由频繁的正规考试来评估。这些考试应该在统一的条件下进行,学生、教师和家长,都应得到表明学生进步或退步情况的量化的成绩单。这些考试必须是全国统一规范化的,以便具有最大范围的可比性。因此最重要的学科就是那些适合采用这种考试方法评估的学科,如数学、科学等。而其他学科受到重视的知识,仅仅是那些能够有效地评估出来的内容(如在写作课上,注重的是语法而不是表达能力,在历史课上,重视的是对历史事件的记忆而不是对于历史事件的解释)。那些正规考试难以驾驭和控制的学科和课程,例如艺术,在持这种观点的学校里,最不受重视。

在描绘了比内的智力测验、考试社会和学校教育统一观念的画面之后,我明白自己在一定程度上过分强调了某种倾向,将观念和态度混为一谈,以至于对某些与正规考试有密切关系的人,显得有些不那么公平。因为有些深深地参与或介入考试的人士,对此也曾表示过同样的关切。的确,如果我在四分之一世纪以前描绘同样的情景,可能就成了一幅人们无法容忍的讽刺画。然而,从20世纪80年代初以来,美国教育界出现的倾向,与我刚刚叙述过的现象极为相似。对于我在本章后面提出的情境化和个别化的评估教育,这些现象至少可以作为必要的对立物而存在,我们应该秉持宽容对立面的精神来对待它们。

评估替代方法的来源

虽然考试社会是应实际需要,而不是根据科学原则产生的,但确实反映了某种关于人类本质的观点。考试社会依据的科学思想,来自于行为主义者的、学习理论派的、认知与发展的联想主义者等几种观点盛行的早期。根据这些观点,人们相信“与生俱来”的人类能力,相信人类自婴儿到老年,有一条平稳的而且可能是线性的学习曲线,相信学科是分等级的,相信评估潜在能力和成就,必须在小心翼翼的、控制下的、非情境化的条件下进行。

但是在过去的几十年里,构成这座考试大厦基础的许多假设,已经渐渐地被心理发展、认知和教育研究所做的工作动摇,完全不同的观点出现了。虽然想在这一章里回顾导致这种心理观念转变的全部证据,恐怕是不可能的,但正是由于以新出现的人类发展的观点为基础,我提出了旧有评估的替代方案,因此强调这些新观点的主要特征,表明它们与标准化考试的对立是很重要的。

发展观点的必要性

由于皮亚杰开创性的研究工作,儿童不是袖珍成人或微缩成人的观念,已经被广泛地接受了。婴儿或初学走路的幼儿,以始终一致的方式想象或猜测这个世界。但在一些特别重要的情况下,这种想象或猜测距成熟的概念显然相距甚远。儿童的心理发展,经历着性质不同的一系列时期,即感觉运动阶段(sensorimotor stage)、前运算阶段(preoperational stage)、具体运算阶段(concrete operational stage)和形式运算阶段(formal operational stage)。儿童在某个领域一定时期所拥有的知识,必然与其他领域内的经验处于统一的发展阶段。目前已经很少有研究者再坚持原始的“整体结构阶段”(structure-stage)的观点,因为已经有许多新的研究发现,不利于这种观点的成立。但是大多数发展心理学家仍然认为,婴儿或幼儿的世界有其独特的结构。许多发展心理学家相信,需要经验的某些特殊领域(如语言、道德判断、因果关系的理解),是有阶段顺序的。几乎所有的发展心理学家,都强调考虑儿童的观点和理解水平的必要。

这种观点的另一个特征,就是假设发展过程不是一个平稳、非线性、不受干扰的过程。虽然理论心理学家们在细节上有所不同,但大部分研究者相信,可能存在关键的或敏感的时期,在这样的时期特别容易(或特别难)掌握特定的内容。同样,尽管幼儿对大部分领域的理解随着年龄的增加而发展,但有些时期成长得快一些,有些阶段则停滞不前。少数研究者认为,在某些领域内,可能真的存在退化或“U字形”的情形。因为与处在童年中期的学生相比,幼儿和青年表现得更为复杂和一体化。

近来关于发展心理学的知识在自然地增加,设计出反映这些知识的测量方法是可能的。事实上,已经有特别依据皮亚杰或有关理论设计而成的评估方法。但是大体上看,美国的考试一向缺少对发展心理学的思考。

符号系统学派的出现

在行为学派的鼎盛时期,根本不需要提出任何类型的心理实体,如概念、思考、信念或象征等。只要简单地辨认有重要意义的行为或动作,并尽可能审慎观察就可以了。所谓的思考,只不过是简单的肌肉的“无声”运动罢了。

然而,过去的几十年里,心理学家们越来越认识到:人类在认知过程中运用各种符号或符号系统的能力是非常重要的。人类是被视为具有卓越沟通能力的生物,人能通过文字、图画、手势、数字、音乐形式及其他许多象征性的符号,来表达自己的思想。这些符号的表现形式是开放式的,所有的人都能看到书面语言、数字系统、图画、图表、手势语言等符号。但是,运用这些符号所需要的心理过程,必须通过人在不同种类的活动中的表现来推断。由于计算机的发明和普及,内在的符号操作理论,意外地得到了强有力的支持。如果人类发明的机器,能够具备使用和转化符号的功能,那么认为人类本身不具备这种能力的观点,就显得很可笑。

有关的一些学科长期以来投入了很大的精力,来探索人类运用符号能力的发展。目前已经被广泛接受(虽然并非被全部接受)的观点是:初生的婴儿不能使用符号,或者说没有表现出内在符号处理能力。出生后的第二年,婴儿开始表现出运用符号的能力,这是人类认知的重要标志。两岁以后,婴儿开始快速地学会符号或符号系统的使用,而这些符号或符号系统,带有他们所处文化背景的特征。五六岁时,一部分幼儿已经初步知道怎样编故事并理解其中的情节,学会从事音乐活动、画画以及进行简单的科学解释。

在有文字的文化环境中,还有符号使用的第二个层次。儿童必须学会他所处的文化社会所发明的符号(或记号)系统,如书写和数字系统等。除极少数例外,这方面的学习基本上局限在缺乏情境化的学校内进行。在我们的社会里,对于许多学生来说,包括那些已经毫无问题地掌握实用知识和“一级符号系统”的学生,要学会符号系统,也将是困难的。即使是那些轻而易举地学会了符号系统的学生,还会面临着一个严峻的挑战:他们必须将没有上学时已经拥有的“实用的”和“一级符号系统”的知识,与刚刚学到的“二级符号系统”的知识紧密地结合起来。

几乎所有的正规考试,都预先假定应试者已经具备运用特定文化中第二层次符号系统的能力。因此,对于在学习第二层次符号中遇到困难的学生,或者那些无法把这级符号的知识与早期的心理特征联系起来的学生,以上考试有其特殊的难处。此外,我认为那些已经充分地掌握了第二层次符号系统技巧的学生,因为能经常“猜出”这些考试的题目,即使他们对于考试表面上所要评估的学科只达到中等程度,也能够获得高分。无论如何,实用的知识与“一级”、“二级”符号知识之间确切的联系是什么?最好的评估方式是什么?这些都是有待解决的困难问题。

多元智能观念的出现

最初发明智力测验的时候,很少有人注意到其中暗含着的智能理论。但是很快人们就接受了这样一个观点,即智力测验所测量的各种不同能力,全部反映了单一的“一般智能”。虽然这种观点一直为大多数智能的研究者所接受,但是也有少数人对智能的“心理向量”(vectors of mind)或“产品、内容和运算”等不同观点表示宽容。少数派的观点,来自对智商测试结果的分析。然而后来人们发现,得出智能一元化还是多元的结论,取决于在分析过程中,教师采用何种特定因素的分析方法。

近些年来,人们对于多元智能的观念再度表示出了兴趣。研究人员认为新发现的心理现象,可以解释为若干“心理模式”存在的证据。他们所说的“心理模式”,包括快速运算(fast-operation)、类反射(reflexlike),信息处理等行为。这些模式似乎不受其他模式的影响。这些模式的发现产生了新的观点,即认为在完成语法分析、语调识别、面部表情等感知任务中,可能存在着各自不同的分析方法。

对学生回答智力测验时所经历的心理过程进行精细的分析,是智能多元化的第二个证据。这些分析的结果表明,智能的不同组成部分,都对任何标准的智能评估中的成功表现,做出了贡献。不同的人,在不同种类的智能组分的运作上,可能表现出差异。不同任务的完成,也可能需要运用不同的智能的组分、亚组分(metacomponent)和次级组分(subcomponent)(参见第1章、第2章)。多元智能的每一种观点,包括我自己的,都建立在以下见解之上:与人类个体能够按照一元化智能的强弱顺序排列的观点相反,我们认为人不但在自己的智能强项和弱项上,存在着极大的差异,在认知的方式上也存在不同。我们自己的证据表明,这些差异甚至在学龄前儿童身上,就已经出现了。

有关人的不同智能强项的文献和形形色色认知方式的发现,对于教育有极大的启示作用。首先,在童年的早期辨识他们的智能强项和弱项,以便在制定因材施教方案时加以考虑,是很重要的。其次,儿童个体之间的显著差异,使人有理由怀疑,是否应该让所有的孩子学习相同的课程;即使学习相同的课程,是否应该用相同的方法教授所有的学生。

正规的考试可能有助于识别不同的认知特征。但是考试的设计,目的一定是发现这些特征而不是掩盖它们。特别重要的是,那些用于人生“入门”的考试(如大学的入学考试),一定要设计得能让学生发挥出他们的长处、表现出他们的最佳水平。到目前为止,这方面的努力很少,考试往往用来发现人的弱点而非人的长处。

探寻人类的创造力

在正规智力测验发明后第一个世纪的大部分时间里,引起人们广泛兴趣的,就是对人类个体智能的评估,同时很少有人关心其他认知能力的评估。到后斯巴特尼克时代(post-Sputnik era)[2],科学的创造性突然受到重视。美国的教育家开始相信想象力、发明能力和创造能力的重要,呼吁考试设计出能够评估创造力和创造潜能的方法。令人遗憾的是(按照我的看法),在寻找创造性的测量工具时,教育界重蹈覆辙,犯了他们在整个智力测验历史上犯过的错误。那就是他们试图设计的,是在有限的时间里能够完成的简短问答型的考试方法,用以评估他们自己心目中创造性中最重要的能力。如针对一个问题得出各种不同答案的能力,即发散思维的能力。或是针对一个激发因素,产生大量不同寻常的联想的能力,即流畅构思的能力等。

尽管目前在对智力测验的看法上,还有许多不同的意见,但它对于创造力的测试未能达到预期目标,观点却是相当一致的。虽然这些测试方法是可靠的,而且与智能的心理学测量方法相比,的确能够测量出后者测量不出的能力,但它们不能根据人在某个领域里的作品,预测出他将来是否会拥有创造力。研究人员现在已经不再试图设计出更多更好的“创造力测试”(creativity test),而是开始进一步研究,当一个人从事发现问题或解决问题的活动时,究竟发生了些什么。

近来这方面的研究有两个主要的发现。第一,具有创造力的人,自己并无独特的心理运算方式。他们运用的认知过程与其他人相同,但他们以更有效、更灵活的方式运用它们。他们野心勃勃,设定的目标常常具有很大的冒险性。第二,具有高度创造力的人所过的生活,与其他大多数人不同。他们对所从事的工作极为热情,全身心地投入其中。他们表现出对新事物的强烈需求,而且对自己要达到的眼前目标和最终目标,有强烈的主观意识。他们极其善于思考自己的行动、时间的使用和自己作品的质量。

不管嘴上怎样说,对培养创造能力的追求从来就不是美国教育制度的主要目标。但是,在一定程度上,培养具有创造性的人才,又是教育机构的目标之一。所以为了符合当今对创造性的分析结果,追求这一目标是很重要的。

情境化学习评估的优点

当标准化考试和作为范例的实验设计,初次介绍到非西方文化的社会里时,产生的唯一结果,就是无论是否先前具有阅读和写作能力,非西方社会的人在技巧和智能上,表现得都比西方人差。后来人们发现了一个有趣的现象:只要稍稍改变考试的内容、考试的环境和考试的指令方式,他们的考试成绩就能频频地发生戏剧性的提高。只要采用受试者熟悉的题材,雇用知识丰富、语言流利的监考人员,再加上修改应试指令,或者用对于非西方文化较为公平的形式,来测试同样的认知能力,则来自其他文化和西方文化受试者的成绩差别,就会明显缩小,甚至消失。

目前已有大量的研究证据显示,为某一文化背景下的对象所设计的评估材料,不能直接应用于另外一种文化环境之中。实际上根本没有纯粹文化公平和无文化的材料,每一种评估方法都反映了各自的文化来源。正规考试在西方社会之所以盛行,是因为学生已经习惯于在脱离日常实际应用的环境中学习书本。但是,在校外和学校影响较小的环境中,学习都是在相关的情境中进行的,因此评估也应该在类似的情境中进行才有意义。

建立在跨文化研究的基础上,研究者对于传统科学领域内的专家们的认知能力有了新的发现。这些发现表明,专家们往往在评估计算或推理能力的考试中失败,但是他们在日常活动中,如缝补衣物、在超级市场购物、往卡车上装牛奶箱、在争端中维护自己的权利,等等,却能准确地表现出上述考试中需要的能力。在以上这些事例中,失败的不是参加考试的个人,而是声称要记录参试者能力水平的评估方法。

在人的大脑之外寻找能力和技巧

以上所回顾的研究结果,产生了另外一个新奇的概念。在很多情况下,断定“完成一项任务所需要的知识,会全部储存在单一人类个体的大脑中”,是错误的。所需的知识可能是“分散”的,即成功地完成某项任务可能需要依靠集体的力量。任何单独的个人,都不可能具备所有必需的专业知识。但他们一起合作,就能可靠地完成这项任务。同样,认为某个人具备或不具备必要的知识的说法,过于简单。经过适当的人或物的“触发”,这些必要的知识就有可能在某人的身上表现出来。否则,就可能完全检验不出这些知识。

认为“人类的认知能力是在三个不同的要素交汇时才能显示的一种能力”,是有道理的。第一个要素是拥有技能、知识和目标的人,第二个要素是能够产生有关技能的“领域知识结构”,第三个要素是围绕有关研究领域的一组机构或权威人物,它们能够判断出某项特定的表现是可以被接受的,还是实现了创造性的突破,或者是没有达到预期的标准。知识的获取与传递,取决于这三种要素之间的相互作用。特别在童年的中期,判断他今后能否获得成就,取决于是否了解自身文化环境中的各种知识领域,是否了解将会影响其发展机遇的有关行业和权威机构,这些行业和机构对成就有权认可。正规的考试因为只专注于人的大脑在某一瞬间存在的知识,有可能扭曲、夸大或明显地低估了一个人在更广泛的社会背景下,所能做出的贡献。

以上的研究导致了差别化、细微化的评估观点。其中之一至少在一定方式上,比正规的考试更接近于传统的师徒制评估。今日,根据这些研究发现所设计的新评估方法,应该能够敏锐地反映心理发展的阶段和轨迹。这样一个创新,应该在人的婴儿期之后,以适当的方式调查人类掌握符号的能力,调查实用知识与第一级、第二级符号、技巧之间的关系。它应该辨别出不同种类的智能和不同认知方式的存在,并将对这些差异的认识融会到评估之中。这样一个创新的评估,还应该弄清在不同领域内拥有创造性的人类个体的特征。最后,这种评估应该承认情境对人的表现的影响,提供对评估能力来说最为恰当的情境,包括与接受评估的人表面上无关的情境。

要达到所有这些要求和愿望,确实是很困难的事。实际上,正规考试的吸引人之处就是使用者可以不考虑或尽量忽略我刚才概括的评估需要具备的大部分特征。但是,如果我们寻求的,是能够反映出受试者个体真实情况的评估方法,体现出我们对于人类认知本质的最佳认识,我们就不能忽视以上特征。

评估新方法的一般特征

如果有人今日想勾画出评估的最新方式,可能要尝试列出以下8个主要特征。

1.重视评估胜于重视考试

美国对考试的偏爱已经走得太远。有些考试虽然能够达到一定的目的,但在一个善于思考的社会看起来,考试机构是在用一种毫无意义的方式编制考试的方法。许多人想了解和证明这些考试效度的内在理论或概念的基础,结果都是失望的。似乎很多考试都被设计出来为了创造需要,而不是满足需要。

虽然我对考试有相当矛盾的心理,但对评估却一点儿没有这种心理。在我看来,受过教育的人以及他们所负责的所有的人,都应该承担以下评估的使命,那就是定期地、恰当地思考他们所要达到的目标,思考实现这一目标所需要的不同方法,思考在实现目标过程中所经历的成功和失败,思考评估的意义。

我将评估定义为:获得有关人类个体拥有的技能和潜力等信息的过程。它可以达到两个目的:一个目的是为其提供有益的反馈,另一个目的是为这个人周围的社区提供有用的资料。评估与考试的差别,在于前者偏爱从日常表现中获取信息的技术,对中立的、非情境化的考试方法不以为然。

我认为,在心理学界和教育界负责评估工作的人,应该努力促成这种评估方式的实现。我们应该设计出有益于经常的、系统的、有用的评估方法和工具。我希望在某些情况下,结束“正规考试”层出不穷的现状。当然,在多数情况下,我们不必如此。

2.简单、自然而且定期的评估

评估应该是自然的学习环境中的一部分,而不是在一年学习剩余的时间里强制附加进去的内容。评估应在人参与学习的情境中“轻松地”进行。起初可能需要明确地介绍有关评估的事,但过后大多数评估项目就将在学生和教师中自然进行。这两部分人,都不需要明确地意识到自己正在进行评估。

专家认知能力的评估模式,与以上方式有相关之处。我们假设专家很少在外界监督下从事自己的工作。除非在竞争的情况下,一般专家不需要由其他人来评估。但是事实上,专家在日常工作中的每时每刻,都处在接受评估的过程之中。这种评估是自然的、在毫无意识的情况下进行的。当我初次撰写学术论文时,对老师和编辑的详细批改有高度的依赖性。现在当我坐在办公桌前在初稿上修改、打字或编辑早期的文稿时,必要的评估多半已经在此之前无意识的状态下发生了。

当评估渐渐地成为学校景观的一部分,就不需要再将它从其他的教室活动中分离出来。就像在良好的师徒制中一样,教师和学生无时无刻不在互相评估。因为评估是无所不在的,所以同样也不需要“为评估而教”。这样一来,对正规考试的需求就会萎缩。

3.生态学的效度

大多数正规考试都存在的一个问题,就是它们的效度(validity),也就是这些考试与一些已知标准的相关性。众所周知,对创造能力的测试已经不再广泛地为人们所使用,原因就是一直没有恰当地建立起它们的效度。由于预测下一个学年以后的学习表现时的准确性十分有限,智力测验和学业评估测验的预测效度也很让人怀疑。

回到我们关于师徒制的例子,发现没有任何理由怀疑师傅判断的效度。因为他和徒弟的关系是这样密切,以至于他能够高度准确地预测徒弟的表现。如果这个预测不可靠,将来一定有麻烦。我认为,现今我们使用的评估方法,已经大大地偏离了这些方法应该涵盖的范畴。如果对人类个体的评估是在更接近他们的实际工作情况条件下进行的,就可能对他们的最终表现做出较好的预测。大多数美国的学龄儿童在他们的学习生涯中,都要花费数百小时从事一种单调的练习——正规考试。但当他们离开学校以后,几乎没有人再遇到类似的考试,这真是一件很奇怪的事。

4.“智能展示”的评估手段

如前文所述,大部分智力测验手段严重地偏重两种智能:语言智能和逻辑智能。具备这两种智能强项特殊组合的幸运儿,即使对于所要评估的领域并不特别擅长,也可能在大多数正规考试中成绩良好。由于同样的原因,在语言智能和逻辑智能两者或其中之一有问题的人,在其他领域的考试中可能也会失败,其原因仅仅是他们不能掌握大多数标准化考试手段的形式。

解决这一问题的办法(当然说比做容易)是设计“智能展示”的评估手段,不通过语言和逻辑的能力,而直接观察人在运作中的智能。如可以让一个人在不熟悉的地区航行,以确定他的空间智能;可以通过观察一个人怎样学会并牢记新的舞蹈或体育锻炼的动作,来评估他的身体-动觉智能;可以通过观察一个人如何处理与售货员的争执,或者观察他如何在一项困难的谈判中获得满意的协议,来评估这个人的人际智能。这些日常生活中的例子表明,设计“智能展示”的评估手段是可行的。但此类评估却不一定能在心理学实验室和考试的大厅中进行。

5.多种测试方法的使用

仅从单一测试拼凑出来的分数,例如韦克斯勒[3]儿童智力量表(Wechsler Intelligence Scale for Children),来制定广泛应用的教育措施,是最违反教育规律的事,即使单一的智力测验也包括几个分测验。在提出教育建议的时候,应该考虑总成绩在各个分测验的分布情况,分析被测试者在处理不同题目时所运用的策略。

更理想的做法是,对于一系列分别测量的各种能力的评估结果给予同样的关注。现在请考虑以下超常儿童教育项目入学标准的例子。保守地说,美国至少有75%这类项目的唯一入学标准是智商,只有IQ为131分才有资格入学,129分就被拒之门外,这是多么不幸啊!我并不反对把智商作为考虑录取与否的因素之一,但为什么不能同时参考这名儿童已经完成的作品、他对这一项目有关课程的目标和愿望、他和其他“超常儿童”一起参加一段实验的表现,以及其他并不那么引人注目的评估结果呢?如果美国的教育部长出现在电视摄像机前时,相伴的不是只有一维的背景图,而在他的背景上出现半打不同画面,每一种都代表完全不同的学习和创造方式,我感到美国的教育会很容易地取得巨大的进步。

6.对个人的差异、发展水平和知识形式的敏感度

评估方案如果没有考虑人与人之间的巨大差异、发展的不同阶段和专业知识的多样化,就会逐渐落后于时代的需要。正规考试在原则上能够加以修正,以便考虑到上述因素,但是首先必须摒弃标准化考试的一些重要假设和习惯。例如在一些关键问题上认为人均具有共同性(例如,在发展的水平上),或者偏爱较为经济的测试手段等。

在培训教师和评估工作人员时,还要强调被评估者之间的差异。因为不可能指望教师根据自己的经验,对此进行有效的分类,所以要向负责青少年评估工作的人员,郑重其事地介绍这些差异。这种正式的介绍应在教育学课程中或教学传、帮、带时进行。教师一旦认识了这些差异,并且有机会与不同智能状态的儿童在一起,再加上细致的观察,就会感到这些差异是活生生地存在着的。

这样一来,教师就有可能自然而然地考虑到这些差异。好的教师,无论他们是教小学二年级,还是教幼儿弹钢琴,甚至指导研究生的论文,都懂得对于不同类型的学生,只有运用不同的教学方法才有效。这种对于学生个体之间差异的敏感程度,应该成为教师能力的一部分,运用于正常的教学和对学生的评估之中。此外,或许更为理想的状态是教师根据自身心理,针对每个学生在不同季节表现出的差异,明智地选择评估的时间和安排学生实践的特定领域。

7.有趣并具激发作用的素材的使用

正规考试最使人不快却又很少被指出的一个特征,就是用于考试的素材本身枯燥无味。有多少机会人们会因为一次考试或考试中的一个题目兴奋激动起来?大约只有作为《阳光法案》[4]的一项成果,参加考试者才有可能对考试机构使用的答案表示怀疑。对某些考试题目的讨论,也才有可能发表在公开出版的读物上。

考试的题目并不一定非枯燥不可,好的评估方法也可以是一种有趣的学习体验。不仅如此,在学生自然地投身于完成那些十分吸引他们的习题、专题和作品的背景下进行评估,才是最理想的评估。这种评估可能不像标准化选择题那样容易设计,但更有可能全面地发现学生的各种技能,并为他们今后的学习和安排提出有用的建议。

8.为帮助学生而实施评估

正规考试还有一个令人十分遗憾的缺点,就是很少有人能回答得出“考试成绩究竟有什么用”的问题。学生收到成绩单以后,看看他们自己的百分比排序,即使不是全部,也能部分地对自己的学习优点做出结论。按照我的观点,心理学家们花费了太多的时间给人排名次,几乎没有时间来帮助他们。评估的主要目的应该是帮助学生,评估人员有责任为学生提供有益的反馈,如识别他们的强项和弱项领域,提出应该继续学习或投身于有关领域的建议,指出哪种习惯是有创造性的,以及未来评估可以预期的结果是什么,等等。特别重要的是,有些反馈采用了切实可行的建议的形式,指出了学生的强项,这些强项独立于可相比较的这个学生在团体中的名次。

如果能够用人类关于认知和发展的研究与发现武装起来,加上对新评估手段的渴望,开始设计比当今流行的更适合的评估方式是可能的。虽然还没有伟大的设计创造出“正规考试的替代新方案”,但我和哈佛“零点项目”的同事们在过去几年里,一直投身于几个新评估方法的研究工作。在第6章至第9章中,我介绍了我们目前致力于以情境化的方式,评估学生智能强项的多项研究。这里,我想将这些成果放在学校评估的更广的范围内来讨论。

迈向评估社会

我提出的定期评估的方法,偏重于在整个教育系统和终生学习过程中,以自然的方式进行。我所回顾的大量证据,几乎全都指出以标准化考试作为唯一评估的方法,的确存在着许多问题。很多研究发现都认为,应该为学生创造出使评估自然进行的环境,即设计课程的实体,如领域专题、过程作品集等,以便在学生从事学习或创作活动的情境下参与评估。

如果认为我主张再度引进传统师徒制的评估方法,未免有些夸张,但我的确认为现今距离那种评估方法已经走得太远,现代的评估完全可以借鉴传统师徒制的概念和假设。的确,如果认为“正规考试”和“师徒制评估”是评估方式的两个极端,那么可以说美国今日已经过于偏向正规考试,而应当考虑这么做的代价和局限性了。即使是物质王国以外的世界也会物极必反,这就是为什么本章推崇更加自然的、对情境更敏感的、生态学上更可行的评估方式。标准化的正规考试自有其一席之地,比如可以用来初步筛选某些“处于危机”的人群。即使如此,使用者也应知道这种考试的局限性。

对于我所介绍的观点,可以预料会有反对意见。其中之一就是认为正规考试确如广告所言,非常客观,而我所倡导的却是回归主观的评估方式。我有两个理由反驳这种说法。首先,认为领域专题、过程作品集或“多彩光谱”等评估方法比起其他评估的方法来更加缺乏客观性,从理论上找不到根据。这些方法也可以得出可靠的信度。虽然信度的建立并不是以上这些方案的重点,但是对于研究这些评估方案信度的构想以及心理测量,我们已经有了一定的手段。

第二个反对意见,也与标准化的正规考试所宣称的客观性强并且没有偏差有关。从技术上看,这些考试手段中最好的一些,确实能够避免主观性和统计偏差的危险。但是,任何种类的考试手段必然会有利于某一类(或某几类)个体,有利于某一种(或某几种)智能和认知方式。那些拥有一定的语言和逻辑智能组合的人,善于在限定的时间里、没有人际接触的非情境化条件下接受测试,他们特别受惠于正规考试。与此相反,那些没有表现出语言和逻辑智能组合的人,那些只善于在需要较长时期的努力才能完成的课题中,或者在情境化的评估中才能更好地表现出智能强项的人,就很容易在正规考试中受挫。

我相信,特别是在教育资源有限的条件下,应为每个人提供展现自己智力强项的机会。没有理由反对取得高分的人在面对大学招生办公室的工作人员时,炫耀自己在入学考试中取得的满分。但是出于同样的原因,具有其他认知或行为方式上强项的人,也一样应该有他们的出头之日。

有一些人可能会赞成以上分析的思路,但出于成本和效率的考虑,仍然反对这样做。这种意见为正规考试辩解的理由是,在全国范围内提倡更能经受检验的评估方式,效率太低,花费太大。为此即使正规考试并非完美无缺,我们也应该接受它,只不过尽量加以改进就是了。

这种意见表面上似乎有道理,但我仍然持反对意见。的确,目前正规考试从成本上看确实效益不错。但是请想一想,过去几十年里人们已经花费了几百万,甚至说不定已经花费了几十亿美元,才使它发展到现在这种极不完善的状态。我有理由认为,即使花费更多的钱,也很难使目前的考试有什么本质上的改进。

在研究基金的支持下,我们的“零点项目”现在所进行的具有一些开拓性质的项目,以任何标准看起来,变革的力度都不算太大。我们相信,这些项目中评估方法的要点,可以很容易地教给老师们,并在有兴趣的学校或学区中推广使用。我们赞同西奥多·赛泽(Theodore Sizer)的估计,改革目前的教学方法,使其质量提高(可能还会导致教育质量的提高),大约只需要增加10% ~15%的成本,而且不会更高。

我认为目前情境化评估的主要障碍,不在于缺乏费用,而在于缺乏愿望。在今日美国的统一教育形式下,用相同的教育方法对待所有的学生,对所有的人都采用一元化的评估方法,呼声是十分强烈的。这种倾向从科学的角度上说很不合理,从伦理学的观点上看起来令人十分反感。造成这种习惯的部分原因是可以理解的,就是对过去教育试验中的一些过分做法的不满。但另一部分原因,就是存在着对学生、教师和学习过程的普遍敌意,这在一定程度上令人感到不安。在更尊重教育过程的其他国家,已经证明了即使并不认同最糟糕的一元化教育思想和教育评估方法,也可能有高质量的教育。

目前全国一致认为,人们需要更多的考试和更加统一的教育,解释其原因并不困难。由于20世纪80年代早期学生的表现不佳,引起了人们普遍的不安,这是可以理解的。这些学生的不佳表现,导致了人们对当代教育的指责,并将众多的社会犯罪也归咎于教育。政府官员,特别是州政府官员和立法者,也卷入了这场争论。他们对数量日益增长的教育经费申请采取的处理方法很简单,那就是要求更多的考试和更可靠的考试结果。学生对这种诊断治疗式的考试根本不感兴趣,然而这一事实却不受重视。政府官员很少详细阅读有关资料,他们对以上社会问题的迅速反应就是,尽快寻找替罪羊,以求迅速稳定局面。

非常不幸,政府官员或社会领袖们对这些问题,绝少发表不同看法。如果美国的重要组织或利益集团,能够根据我介绍的上述评估方法和教育哲学,致力于实现另外一种不同的教育模式,我有足够的信心,他们一定会使新的模式获得成功,而且不会因此在银行里欠债。当然还需要更广范围内的人士参与这项工作,如大学教师需检查学生交上来的过程作品集,社区人士需提供导师式、师徒制或“特别小组”式的教育,家长应该知道他们的孩子在学校里做些什么,并且和孩子们一起(至少鼓励他们)完成专题作业。这些建议似乎有些教育革命的味道,但在美国和国外的一流教育场所,却是很平常的。的确,如果没有周边环境的这种合作,高质量的教育是很难想象的。

按照我的思维方式,对于教育方针最本质的、最核心的分歧是(至少应该是)教育的内涵和目的。正如我已经说过的,“正规的标准化考试”所支持的教育概念认为,教育就是将已经掌握的各种信息集中,然后回到或应用于非情境化的场合。按照这种“料斗”(bucket)式的观点,学生在获得足够数量的知识后,就有望成为社会的有用成员。

“评估观点”则看重对创造能力与思考能力的开发,这些能力的培养靠长期的项目来完成。此种观点令人鼓舞的原因,在于它试图架起在学校的活动和离开学校以后的活动之间的桥梁。这种观点认为,两种活动都需要相同的心理和训练习惯,尤其注重每个人的智能强项。根据这种观点,评估应该尽可能在日常活动的过程中不露痕迹地进行,并且应该以有益而且经济的方式,将评估过程中获得的信息提供给教育的决策人。

评估的观点与“以个人为中心的学校教育”的前景非常默契。有些观察者虽然赞同对评估的重视,但可能仍然反对以个人为中心的学校教育,认为那是一种不切实际的、过分浪漫的教育。他们宁可采用更加自然的评估方法,来配合要求严格的课程。对于这些人士,我的回答可能会使他们惊讶,因为我毫不含糊地承认严格要求的重要性。“以个人为中心的教育”方案与严格要求没有丝毫矛盾。其实任何良好的师徒制学习,都是对学生严格要求的。那种“多项选择题附带孤立知识”的考试,常常自以为是,其实是一知半解,为了表面上的整齐划一牺牲了真正的严格要求。我全力支持以个人为基础的学校对课程的严格要求,我所提倡的,仅仅是为学生准备范围更广的可供选择的课程。

卡尔·马克思希望有那么一天,国家的概念因失去为人们所需要的功能而消失,甚至很难被人想起。而我的千年梦想,就是将来有那么一天,智力测验的方法不再为人们所需要的时候,没有人为之惋惜。一小时的标准化考试,在历史的某一时刻里,或许能合理地表明谁在学校里将会学习得更好,谁是适合服兵役的人。但是当我们知道通过各种不同的方法,都可以获得学习和军事上的成就时,我们就需要更具鉴别力的、更敏锐的评估方式,用来判断什么人将会成功。在取代标准化考试方面,我希望能够开发出一种环境(甚至一种社会),使每个人先天或后天所拥有的智能强项得以显现。在这个环境里,人在日常问题的解决和作品的创作中,能够清楚地表明他们自己最适合担任的行业或职业的角色。

当我们朝着开辟这种环境的方向努力时,将不再需要正规的、脱离情境的评估。这是因为到了那个时候,学生在学校所做的和将来他们在社会上要做(或想做)的事情之间,差距会相应地缩小。我们目前没有一种考试能够确定谁将成为一个好的领袖。因为事实已经证明,领导能力只能在一定的环境中自然地产生。由于同样的原因,我们也没有这样的一些考试,能够评估异性之间互相吸引的能力、踢足球的能力、音乐演奏或立法的能力。但我们却有智能的测试,目的是测出这种在现实世界中难以观察到的、据称是普遍的能力。然而,之所以不易观察到,说不定就是因为智能从来就不是单一的、容易被测量的能力。

如果我阐述的那种自然发生的认知是可信的,那么只要审慎地观察人的日常生活环境,就能发现多种认知方式的明显迹象。从正规考试到此种自然评估的转变,根本不会使心理学家和心理测量学家失业,反而需要数量更多、受过更广泛训练的和更具有想象力的专家们的齐心协力。只要想一想当今社会只有一小部分人的才能受到重视,而大多数人的潜能却被浪费了,在这方面的投资是值得的。

与“考试社会”相比,我认为评估的方法和以个人为中心的学校这个崇高的理想,更符合美国的民主思想和多元价值观。我还认为,它与近几十年里科学在人的成长和学习方面获得的研究结果也是相当一致的。将来的学校必须精心操作,才能实现这一理想。在本章的最后我想说的是,无论“官方评估”的形式和影响如何,在学校里每天真正学到的知识,加上离开“正规学校”很久以后继续学到的知识,才是对学习本身最好的奖赏。


[1] 简称CAT,是美国加州中学的一种会考。美国大学招生时,有可能参考报名者的SAT或CAT考试的成绩。——译者注

[2] 斯巴特尼克:1957年苏联成功发射人类第一颗人造卫星的名字。——译者注

[3] 大卫·韦克斯勒(David Wechsler,1896—1981):美国临床心理学家,韦氏标准智力测验的编制者。经过早年的研究与施测,他认为斯坦福-比内测验只适用于儿童,对成人则无法使用,于是他从1934年开始制定成人智力量表,能够产生语言和表现两种智商。后又设计出儿童的智力测验,叫韦克斯勒儿童智力量表,也能测出语言智商和表现智商。——译者注

[4] 《阳光法案》(Sunshine Legislation)是美国禁止秘密会议的法案,特别应用于大学校长的选举。——译者注

标签:      

相关文章

发表留言