首页

安全三测评途径 进步大规模教育测评作用的途径之一:简化测评东西

点击:0时间:2021-12-12 23:11:39

谢敏++++刘娟

摘要:在大规模教育测评中,常常会遇到测评内容的全面性与测评时刻过长影响学生测评作用之间的对立,本文测验从简化东西下手,选择有代表性的、灵敏度高的标题来到达测评方针。

关键词:大规模教育测评;东西简化;灵敏度

一、问题提出

在大规模的教育测评中,常常会遇到以下问题,导致测评作用遭到严重影响。

1.为全面查询学生、教师和学校开展状况,在大规模教育测评中,往往要求一同测评较多的内容,以全方位对区域全体教育质量状况进行点评。例如,对学生的点评中常常少不了对学业作用的测评、对社会性开展(含心情情感、行为、自我、价值观等)的查询、对家庭环境的了解等,这些内容都需求由学生来进行作答,这样每个学生的测评内容就会许多。

2.测评内容多也就意味着一个学生要完结测评的时刻长。尤其是在社会性开展方面,涉及到心情情感、亲社会行为、不良行为、自我、价值观等方方面面的内容,且多是量表类的标题,查询学生在各方面的体现和感触。尽管对某个方面来说题量并不多,但将方方面面的内容放在一同的时分,题量就大了。为满意区域测评需求,基本上社会性开展问卷的测验时刻都在60~80分钟,包括几百道题,并且各个标题之间没有太多的崎岖,均要肄业生依据实在状况作答,这关于学生来说是个不小的担负。不少的学生坚持不下来,大部分学生在二十分钟之后就会感到疲惫和不耐烦,开端随意答、绕花答、不看标题共同选一个选项,乃至爽性不作答。例如,咱们在两个区进行测评都发现,测评二十分钟后,已有近20%的学生开端乱答。导致咱们辛苦搜集上来的数据实际上是不实在、不可靠的,供给不了精确的信息。

3.测评内容多却不意味着每一个作用都能充沛打开剖析,形成资源糟蹋。终究陈述运用数据时,是有偏重的,并不是每一个变量都打开来进行深入剖析,有的变量只作为相关变量运用,但测评的时分却有几十道题,这样不只花费了许多时刻作答,形成学生疲惫,影响作答作用,还糟蹋了许多本钱,如题本印刷、运送、数据录入和整理等,耗费了许多人力、金钱和时刻。

鉴于上述问题,为了在确保测评内容的全面性,到达测评方针的一同,进步测评作用,节省本钱,咱们在尽力考虑有什么办法能够很好地处理这个问题。

二、处理办法

上述状况若是从本钱各环节再节省,从作答环节再激起学生作答热心,作用都会是有限的。东西作为整个测评进程中的核心内容,应从其自身下手处理这个问题。咱们有如下考虑:一方面,在断定测评方针和测评内容时,应考虑详尽,清晰哪些要素是要要点剖析的,哪些要素是要做相关剖析的,做到每个要素都有“用武之地”,而不一味地贪多求全。另一方面,关于常常作为相关变量运用的和可作为相关变量运用的东西进行简化,可分为两种状况:

一是选择灵敏度高的标题,作为在某方面的典型体现进行剖析。这一剖析至少包括下面几项内容:题总相关、因子载荷、选项剖析、专家判别或典型被试判别标题对主题内在的代表性。

1.首要要确保标题所代表的行为体现或感触能较好地、直观地反映该方面的内在。常用的办法是专家判别(专家团队最好能包括领域专家、教育学专家、丈量学专家等)或是典型被试口头陈述作答考虑进程,能够用评分或鉴定等级的办法,把需求简化的各标题对主题内在的代表性进行排序。

2.选项散布应较为适宜。核算各题各选项的人数百分比,看是否有人数散布很偏的状况,选项散布能够阐明这道题所代表的行为体现或感触在学生中是否常见。若人数散布会集在某1~2个选项上,则阐明在这道题上取得的信息是很少的,关于点评来说就失掉含义了。

3.区分度应较高。关于散布偏正态的内容可运用鉴别力指数D值来核算区分度,选择D值至少在0.3以上的标题,关于散布偏态的内容可运用题总相关来作为区分度方针,选择r值至少在0.6以上的标题。

4.因子载荷应较高。经过Mplus等软件进行验证性要素剖析,依据拟合指数等各项方针的作用,选择因子载荷至少在0.5以上的标题。因子载荷值从丈量学的视点阐明晰该题对整个维度(主题内在)的反映程度。

二是制定简版东西(Smith等,2000;Taylor等,2002)。制定简版东西的要求十分严厉,在上述剖析的根底之上,还需求至少包括以下内容:简版与完好版之间的相关程度及简版与剩下标题之间的相关程度(如相关不高需从头挑题)、简版量表的内部共同性、简版量表的题总相关、选择效标材料剖析简版量表的区分效度和一同效度(在条件答应的状况下可剖析重测信度)。只要当上述方针到达核算学要求时方能树立简版东西,简版东西与完好版东西的理论假定、维度结构等需保持共同,仅在题量进步行了减缩。

制定简版东西需求有更专业、更杂乱的作业,这一作业没有完结。作为测验,本文要要点叙述的是榜首种简化测评东西的办法和作用。

三、剖析进程

1.修订内容

考虑到“我国6~15岁儿童青少年心思发育特征查询”项目中有全国代表性的样本且项目作用要进行推行,以及近几年来一线测评作业需求,本次进行简化的内容选择“我国6~15岁儿童青少年心思发育特征查询”项意图社会性题本,包括五个方面,分别是心情、行为、自我、价值观和社会信仰,各方面首要包括的内容如下:

模块

测评内容

心情

日子满意度、孑立感、焦虑

行为

亲社会行为、攻击行为、学校被欺压行为、网络成瘾倾向

自我

自我认识、自负、自傲、自制力

价值观

金钱观、环境保护、国家认同、权力观、学习观、集体主义

社会信仰

公平国际信仰、活跃社会信仰

2.数据来历

数据首要来历于两方面:一是“我国6~15岁儿童青少年心思发育特征查询”项意图4~9年级学生的全国代表性数据库,二是北京师范大学脑与认知科学研究院心思与学习点评中心近两年来的几个区域测评数据。考虑到数据的全国代表性、区域数据不完全包括上述五方面的内容且不包括一切4~9年级,两方面的数据以“我国6~15岁儿童青少年心思发育特征查询”项目为主,心思与学习点评中心的数据作用作为辅佐和验证。

3.剖析办法

首要,经过查阅五个方面最近几年的最新研究作用,清晰“我国6~15岁儿童青少年心思发育特征查询”项目社会性题本在这七个方面的内容仍较为前沿。

其次,要点进行了数据剖析。分红三个阶段进行:

榜首阶段是进行年级差异的剖析,考虑到样本量较大,断定差异是否明显是以效应值>0.2为规范的,有差异的年级分隔核算,没有差异的年级兼并核算。

第二阶段是对上述五个方面的内容进行选项剖析、区分度剖析、题总相关剖析、共同性剖析和验证性要素剖析,依据各题的内容和核算作用选择内容适宜、灵敏度高的

标题。

第三阶段是对选择出来的标题进行核算核算,包括共同性剖析、对原东西的解说率、与原东西的年级开展趋势的共同程度等。

4.选择作用

以焦虑量表和孑立感量表为例。

焦虑量表有28道题,包括生理焦虑、对人不安/惊骇、忧虑/过度灵敏三个维度,经过第二阶段核算核算后,发现在生理焦虑和对人不安/惊骇两个维度上区分度较高且因子载荷较高的标题是:“我总是感到不舒服。”“就算与他人在一同,我仍感到孑立。”“其他孩子比我美好。”“我很难把心思放在功课上。”咱们以为,这四道标题所代表的行为体现和感触不能很好地阐明是否焦虑,由于还存在其他或许引发这四种体现的要素,并且,纵观这两个维度上的一切题,均有这方面的状况。因而,咱们把挑题的要点放在忧虑/过度灵敏维度上,在这个维度上,选择出来较为适宜的有五道题:“我许多时分都在忧虑。”“我感到严重。”“我惧怕许多作业。”“我经常忧虑糟糕的作业会落到我头上。”“我忧虑将来会发作什么。”区域数据也支撑这一选择。这五道题的共同性系数为0.693,对原量表的解说率为67%。在四个区域的初二年级学生数据中,这五道题的共同性系数在0.76~0.84之间,对原量表的解说率在71.2%~79.9%之间。这五道题的年级开展趋势与原量表的比照如下,选择后的五道题核算得到的年级开展趋势更具合理性。

孑立感量表有16道题,为单维度。经过核算核算和内容选择,选择出了六道题:“没有人跟我玩。”“没有人跟我一块说话。”“我很难交朋友。”“在我需求协助时,我找不到人来帮我。”“我感到孤寂。”“我觉得孑立。”区域数据也支撑这一选择。这六道题的共同性系数为0.839,对原量表的解说率为83.6%。三个区域的初二年级学生数据中,这六道题的共同性系数在0.84~0.93之间,对原量表的解说率在82.5%~83.9%之间。这六道题的年级开展趋势与原量表的比照如下:

在一切5个方面19项内容中,挑题后的共同性系数在0.54~0.84之间,对原东西的解说率在53%~94%之间,整体较好。挑题前这五个方面的总题量为215道,挑题后是70~75道,这些题对各项内容的内在有较好的反映,且区分度、因子载荷均较高。若一同进行测验,测验时刻将大大节省。

在这19项内容中,学校欺压行为、自制力、公平国际信仰在小学和初中有不同的体现,分为小学和初中两个版别;自负、自傲、国家认同和环境保护在4~5年级、6~9年级的体现有所不同,分为4~5年级、6~9年级两个版别。

四、定论与评论

可见,经过选择之后的标题对原东西仍有较好的代表性,能够满意测评所需,对进步大规模教育测评的作用有较好的促进作用。榜首,节省了测评时刻,削减了被试疲惫和不耐烦心情,进步了取得实在、客观数据的或许性;第二,节省了本钱,题本印刷、数据录入等本钱都会因题量的削减而下降;第三,进步了作用陈述的时效性,因各题的丈量方针清晰且灵敏度高,数据整理、数据剖析等进程的时长削减且正确率进步,节省了中心进程的时刻,也就为出具作用陈述节省了时刻,测评作用能更快地得到反应,这就进步了作用陈述的时效性,这对教育一线开展作业来说是十分重要的。

后续咱们拟依据本次挑题的作用再次剖析各项东西制定简版东西的或许性,并经过一系列的核算核算和专家论证作业,制定或许的简版东西。

不同的东西方式、东西内容能够有不同的处理办法,本文是其间的一种测验。挑题之后并不代表原东西就能够不用了,运用哪个版别的东西需求依据测评意图来定,当咱们要要点剖析该方面的体现时,咱们需求运用完好东西,当咱们仅仅将该方面作为相关变量或简略的现状查询时,可运用简化的东西。

注:本文得到“我国6~15岁儿童青少年心思发育特征查询”项目办公室支撑。本文得到成都市锦江区“树立教育质量点评监测系统,促进区域教育质量全面提高”项目、“沈阳市教育质量监测与点评”项目和杭州市上城区“根据学生开展的区域教育质量提高”项意图数据支撑。

[1]Joanne Taylor, Frank P Deane. Development of a short form of the test anxiety inventory[J]. The Journal of General Psychology, 2002, 129(2),127-136.

[2]Jeffery M Stanton, Evan F Sinar, William K Balzer, Patricia C Smith. Issues and strategies for reducing the length of self-report scales[J]. Personnel Psychology, 2002,55,167-194.

栏目修改 / 任玉丹.终校 / 黄才玲

相关资讯
最新新闻
关闭