首页

屁屁里长了一个小疙瘩,千万别简单当痔疮解决!

点击:2117时间:2024-07-21 10:56:15

黄菲菲+张敏强

 

 

 

摘要社会网络剖析是对社会联系进行量化剖析的技能。社会网络剖析运用中常遇到缺失数据,缺失数据处理不妥会影响丈量误差、下降核算成效,乃至歪曲研讨成果。在论述社会网络剖析中缺失数据的原因和缺失机制的基础上,梳理了社会网络剖析的四种缺失数据处理办法的原理,剖析比较了四种办法在实践运用中的优缺陷。社会网络剖析办法在心思学中的研讨运用应在考虑缺失概率和缺失机制的条件下,恰当挑选缺失数据的处理办法。

关键词社会网络剖析; 缺失数据; 缺失数据处理办法

分类号B841.2

DOI:10.16842/j.cnki.issn2095-5588.2016.08.0021导言

“社会网络剖析” (Social Network Analysis, SNA)是在人类学、社会学、心思学等很多范畴中开展起来的研讨个别之间联系结构的剖析办法,是对社会联系进行量化剖析的一门艺术和技能。SNA首要用于描绘和丈量个别之间的联系以及这些联系中所包括的资源、信息等,并依据这些联系树立模型,进而研讨联系与行为之间的彼此影响(刘军, 2004)。SNA从“联系”视点来提醒社会情境与嵌套于其间的个别的心思和行为的互动影响,即个别可以能动地结构他们的联系网络(挑选效应,selection effect),一起这些联系又反过来影响个别的心思与行为(影响效应,influence effect)。因而,个别既形塑社会网络,也被社会网络形塑(刘军, 2006; 马绍奇, 2012; 马绍奇, 焦璨, 张敏强, 2011 )。在SNA中,反映个别之间联系的数据称为联系数据(relational data),一般的数据类型是0、1二分变量数据,即1标明两个举动者之间存在联系,0标明不存在联系(马绍奇, 2012)。

SNA从嵌入社会情境的个别之间的联系动身,剖析集体结构及其与心思行为的彼此作用,更能反映人际往来的社会性特色。如,运用SNA办法体系研讨中学生班级的学习联系、友谊联系、咨询联系、信息沟通联系等,运用SNA办法研讨中学生的支撑网络对中学生学业和心思健康等方面的影响。这不只有利于从社会联系的视角了解学生人际联系的构成、特征和影响要素,还能及时把握学生的心思动态,保护学生的心思健康(唐文清等, 2014)。可是,由于SNA的运用触及到更多的人事物,数据的缺失是必定现象。研讨者在SNA中常常会遇到数据应对率在65%至90%的状况(Albrecht, 1984; Dean & Brass, 1985; Moch, 1980; Monge, Edwards, & Kirste, 1983; Roberts & O′Reilly, 1978, 1979)。此外,由于数据结构的依赖性,假如网络中的举动者或许联系存在缺失,就难以全面地描绘缺失举动者及其附近举动者的网络环境(Robins, Pattison, & Woolcock, 2004)。已有研讨发现,缺失数据不只对网络结构描绘发生消沉影响,还会轻视联系强弱和聚类系数,并使得中心性和度数的丈量呈现不稳定的状况(Burt, 1987; Borgatti & Molina, 2003; Costenbader & Valente, 2003; Kossinet, 2006; Huisman, 2009)。这说明,网络结构描绘和网络数据剖析的成果会由于缺失数据而发生误差。

心思技能与运用4卷

8期黄菲菲张敏强: 社会网络剖析中缺失数据的处理办法

要使SNA办法得到更好的运用及认可,既要介绍理论及运用办法,一起还要解决办法运用中或许呈现的各种问题。例如,在数据搜集和研讨定论的推行方面,如安在实践的运用剖析中,完善相关的核算模型和参数估量办法的开展,怎么前进数据搜集的信效度,怎么处理缺失值等问题(马绍奇, 焦璨, 张敏强, 2011; 焦璨, 吴换杰, 黄玥娜, 黄菲菲, 张敏强, 2014)。由于社会网络数据的彼此依赖性,对缺失数据的处理不能选用惯例的缺失处理办法。本文就SNA中缺失数据的原因及缺失机制,比较剖析了常用的四种缺失数据处理办法在实践运用中的优缺陷,并就SNA中怎么处理缺失数据提出主张。

2缺失数据的原因

21鸿沟规范问题

鸿沟规范问题指的是在网络研讨中指定举动者或许联系之间包括的规矩(Laumann, Marsden, & Prensky, 1983)。例如,学者在研讨青少年的冒险行为进程中,想了解他们在校园里的人际联系状况。图1中的A、B、C、D是四位青少年在校园里的人际联系网络,E、F、G三位青少年尽管和A、B、C、D四位青少年的往来亲近,可是校园外的人际联系与研讨意图无关,因而,E、F、G三者和研讨中的青少年的人际联系就简单被忽视(Valente, Fujimoto, Unger, Soto, & Meeker, 2013)。整体而言,鸿沟规范是由研讨者自行决议的。在实践包括网络的比如中,安排成员或许由方位界定的正式界说大部分取决于一个正式安排团队中成员占有的摆放方位,例如一个校园最受欢迎的前10名教师或许一个班级成果最好的前五名同学(Kossinets, 2006)。

社会网络是由举动者及举动者之间的联系组成的,因而研讨者在规范网络鸿沟时,除了需求考虑经过一组举动者来界定网络鸿沟外,还要决议哪些联系应该归入研讨规模里。关于怎么有用地规范网络鸿沟,学者们提出了一个准则,即依据可丈量举动者的交互作用断定。因而,研讨中的网络鸿沟被界说为该鸿沟记载了在特定情境中举动者间的交互作用(Laumann, Marsden, & Prensky, 1983)。可是,无论是情形仍是交互作用的设置,研讨者首要需求依据研讨意图给出操作性界说,然后再断定在这个情境中包括哪些存在交互作用的举动者。跟着电子科技时代的开展与前进,这个准则不再仅限于小网络,由于大规模的社会网络交互作用数据可以经过邮件传递或许虚拟社区的记载得到(Newman, 2002; Ebel, Mielsch, & Bornholdt, 2002; Guimera, Danon, DiazGuilera, Giralt, & Arenas, 2003; Holme, Edling, & Lijeros, 2004)。

22固定挑选的研讨规划

固定挑选的研讨规划指的是网络中举动者和联系的缺失依赖于研讨规划中提名挑选的限制(Holland & Leinhard, 1973),即网络数据的误差是由于研讨规划形成的。假定图2中的举动者A归于Z集体,在这个集体中,他和其他5个举动者有联系,现研讨者要求举动者A提名y个和他联系最好的举动者。假如y≤5,则举动者A和其他5个举动者之间的一切联系都包括在数据会集;假如y>5,则举动者会失掉5-y个联系。例如,学者想研讨班级的学业咨询网络对学生学业延迟的影响,要求学生提名2个在学习上遇到困难或疑问时会讨教的同学。假如学生平常向同学讨教问题的人数遍及都是3个,那么学者得到的学业咨询网络数据是有误差的。由于在该网络中,大部分举动者(学生)都失掉了1个联系。

在固定挑选的研讨规划中,会呈现互利提名(有联系的两边彼此提名),非互利提名(有联系的两边只需一方提名)和无提名(有联系的两边均不提名)三种状况。从本质上而言,非互利提名和其他两种提名的状况不相同(例如:好朋友和一般朋友的差异),因而,研讨者需求考虑是否将其归入到研讨规模内。固定挑选的研讨规划还简单使数据呈现非随机缺失的方式,如受欢迎的个别更有或许被其他举动者提名(Feld, 1991)。可是,在不同结构的网络中,这种影响会不一致(Newman, 2002; Vázquez & Moreno, 2003)。例如,在非相等混合性(即受欢迎的举动者倾向于和不受欢迎的举动者相联系)的网络中,互利提名将会导致更多联系缺失的状况呈现。

23网络查询中的无应对

网络查询中的无应对包括应对者彻底缺失和特定项意图数据缺失(Stork & Richands, 1992; Rumsey, 1993)。应对者彻底缺失指的是举动者没有参加到查询研讨中,因而举动者的宣布联系关于剖析而言是无效的(如图3所示,N标明缺失数据)。特别项意图数据缺失指的是举动者参加了查询研讨,可是在特定项目上的数据缺失,因而只需举动者的部分联系关于剖析而言是无效的(如图4所示,N标明缺失数据)。例如,在一个关于学生情感咨询网络对学业成果影响的查询中,要求学生提名3个班上的好朋友。图3中的A和D两位学生因事由请假没有参加此次研讨,但图3应对者彻底缺失是其他的学生在提名中提及到了A和D,所以A和D的无应对归于应对者彻底缺失。假如A和D参加了查询研讨(如图4),可是在提名中他们疏忽了被提及的学生,即B提名了A,A没有提名B,则A和D的无应对归于特别项意图数据缺失。关于1-模网络而言,即由一个举动者调集内部各个举动者之间的联系构成的网络(刘军, 2009),无应对对网络结构及核算目标的影响不大,可是关于存在多元交互作用情形的网络(例如,二元网络)而言,无应对或许会形成特定的影响(Robins, Pattison, & Woolcock, 2004)。例如,在一个从属网络的查询研讨中,假定研讨者没有其他途径可以了解团队的任何信息,只能要求举动者陈述他们隶归于哪个团队。假如任何一个举动者呈现无应对的状况,那么或许会呈现这个无应对举动者所从属的团队缺失的状况。Huisman(2009)经过模仿研讨发现,忽视网络查询中的无应对数据对社会网络的描绘剖析会形成消沉的影响。进一步比较剖析举动者无应对和特别项目无应对的成果发现,特别项意图无应对或许会形成更大的核算误差。

网络查询中的无应对易导致举动者或许联系的缺失,可是网络环境中除无应对举动者以外的不完好查询举动者的部分信息依然是有用的,如可运用这个信息来估量缺失状况的作用和剖析不完好网络(Costenbader & Valente, 2003; Robins, Pattison, & Woolcock, 2004; Gile & Handcock, 2006; Handcock & Gile, 2007)。此外,不完好查询举动者的部分信息还可用来估量举动者和网络的结构功能,并能给缺失数据机制供给参阅。

和前两种缺失数据原因比较,无应对是社会网络查询中最经常呈现的缺失状况。因而,有不少学者开端重视社会网络查询中无应对的缺失问题(Daniel, 1975; Stork & Richards, 1992; Butts, 2003; Kossinets, 2006; Huisman & Steglich, 2008; nidaricˇ, Ferligoj, & Doreian, 2012)。

3缺失机制

不同的缺失数据来历,还触及一个重要的问题,数据是否体系缺失。假如数据是体系缺失,那么缺失概率是否和查询变量(性质或特点)有关。已有研讨标明,在社会网络中处理不同来历的缺失数据时,应考虑缺失机制以前进处理办法的有用性(Huisman, 2009; nidaricˇ, Ferligoj, & Doreian, 2012)。

缺失机制指的是数据的缺失概率和研讨变量之间的联系(Schafer & Graham, 2002)。Rubin在1976年依据缺失引起的误差程度界说了三种类型的缺失数据:彻底随机缺失(Missing Complete At Random, MCAR),随机缺失(Missing At Random, MAR)和非随机缺失(Missing Not At Random, MNAR)。假定一切变量观测值Y中,完好的变量记为Yobs,缺失的变量记为Ymis。假如缺失概率和Yobs及Ymis彼此独立无关,此类缺失称为MCAR。假如缺失概率和Yobs相关,和Ymis独立无关,则为MAR。MNAR是指缺失概率依赖于Yobs和Ymis。由于Ymis的未知性,研讨者常常难以判别缺失数据归于哪种类型的缺失机制。叶素静,唐文清,张敏强和曹魏聪(2014)在对追寻研讨中缺失数据处理办法及运用现状的剖析中总述了三种类型缺失机制的大略判别办法。

关于社会网络数据而言,彻底随机缺失是指缺失概率和缺失联系的数值及查询数据(例如,举动者的特点)无关。在这种状况下,查询数据是原始查询值的一个随机样本,因而不存在体系误差。随机缺失是指缺失概率和查询数据有关,可是和缺失联系的数值无关。尽管在这种状况下缺失数据会呈现出体系方式,可是这些方式是可控的,由于它们和样本中的查询数据有关。非随机缺失是指缺失概率不只和查询数据有关,还和缺失联系的数值有关,这种类型的缺失数据会对核算剖析的误差程度形成很大的影响。由于在非随机缺失的状况下,应对者和无应对者之间的差异是由体系误差形成的,关于网络结构性质的核算目标将会遭到影响(Costenbader & Valente, 2003)。

4缺失数据处理办法

41完好个案法

完好个案法,即删去部分已有的数据以确保所研讨目标信息的完好性。完好个案法相当于举动者的列删去法,它不只移除不完好查询举动者的列数据且同时移除该举动者的行数据,而移除行意味着在剖析中移除不完好查询举动者和完好查询举动者之间的一切联系(Huisman & Steglich, 2008)。因而,运用完好个案法后用于剖析的数据集是完好的,即每一个举动者既有接纳的联系也有宣布的联系。例如,图5(a)是一个班级情感联系网络的比如,其间有A、D、F三个无应对举动者,每一个无应对者都没有指向外部的情感联系,在查询网络的矩阵表达式中就会有几行缺失联系数据N,对数据进行完好个案法处理后,成果就会呈现如图5(b)呈现的小网络。因而,完好个案法是在可彻底查询举动者的小网络基础上进行剖析处理的。nidaricˇ, Ferligoj和Doreian(2012)用完好个案法等多种缺失数据处理办法对社会网络区组模型中的无应对状况进行剖析,成果发现,在小规模网络中,完好个案法对区组模型结构的稳定性影响最小。Robins, Pattison和Woolcock(2004)的研讨成果则标明,完好个案法从头界说了网络鸿沟:移除无应对举动者之后相当于生成了一个更小的网络。

完好个案法是一种加权办法,它丢掉了不完好个案的数据,对完好个案和缺失个案赋予了相同的权重。在剖析的核算软件包里,完好个案法一般是默许处理缺失数据的办法。它最大的一个长处就是简洁,缺陷则是由于忽视不完好个案而丢掉了大部分信息,很或许呈现模型和数据无法拟合的状况。因而,只能在缺失概率较小的网络中运用完好个案法。Schafer和Graham(2002)以为,当无应对者是彻底随机缺失时,完好个案法或许是有用的。可是,假如这个条件假定不成立,核算剖析成果就会有误差,由于剩下的举动者样本或许是不具有代表性的。也有学者以为,彻底个案法从体系水平而言,严峻损害了一切剖析(Stork & Richards, 1992),且或许会私自损坏社会网络模型的假定(Snijders, Bunt, & Steglich, 2010)。

42有用个案法

有用个案法是指疏忽缺失的数据,只运用观测到的联系变量。有用个案法是直接对不完好数据进行剖析,即依据SNA需求核算的核算值挑选举动者的有用数据。例如,在一元核算剖析中,在核算网络的均匀数和规范差时,可以挑选一切变量都完好查询的个别举动者的有用数据,而在核算网络的协方差或许相联系数时,则需求挑选一切变量都完好查询的配对举动者的有用数据。

Littile和Rubin(1989)在评论社会科学范畴关于缺失数据处理的剖析办法时,比较了完好个案法和有用个案法对网络的均值、方差、协方差及相联系数四个核算量的参数估量影响及二者的差异。研讨成果标明,和完好个案法比较,运用有用个案法后,网络的均值参数估量值是无偏的。可是,其他三个核算量的参数估量值的误差较大。随后,Little和Su(1989)进一步对两种办法的差异进行了详细的评论,也得出了相同的成果。

有用个案法简单易行,和完好个案法比较,它的参数估量值较为精准。可是有用个案法具有较低的核算成效,且和没有缺失数据的网络参数估量值比较,存在很大的误差。因而,研讨者较少运用有用个案法对社会网络中的缺失数据进行处理。

43重建法

重建法指的是经过互利联系来揣度缺失衔接的存在与否。重建法和插补法不相同,重建法在剖析的进程中没有添加新的联系,它仅仅经过查询到的应对者的入度联系(即举动者接纳的联系)来重建网络中无应对者的出度联系(即举动者宣布的联系)。从本质上而言,即用现已陈述的一个联系进行丈量,且重建法仅答应两个人之间的联系。重建之后的网络中应对者和无应对者之间的联系是对称的。运用重建法对SNA中的缺失数据进行处理时,有必要满意两个准则: (1)相似性,即应对举动者与无应对举动者之间的作答方式应具有相似性。由于重建法是经过应对举动者所描绘的联系去构建无应对举动者的联系,所以两个举动者之间的应对方式不能存在体系的误差;(2)牢靠性,即应对举动者所描绘的和无应对举动者之间的联系要确认是有用、牢靠的(Stork & Richards, 1992)。自重建法提出以来,不少学者将其作为社会网络缺失数据常用的处理办法。Gabbay和Zuckerman(1998)在有向网络中,经过应对举动者陈述的和无应对举动者之间的联系重建了网络中举动者之间的联系。Huisman和Steglich(2008)则用重建法研讨了网络面板数据中的无应对缺失数据状况,成果标明重建法在构建完好的网络数据时简直不会呈现不收敛的问题。

一般来说,针对不同类型的网络,重建法的程序如下所示:

(1)在无向网络中,经过查询到的应对者之间的联系以及部分应对者和无应对者之间的联系对网络进行重构(Stork & Richards, 1992)。

(2)在有向网络中,经过敌对联系来揣度缺失联系。例如,关于应对举动者i和无应对举动者j,重建法假定举动者i描绘的和举动者j之间的一切联系和举动者j所描绘的联系是彻底一致的,即研讨者可以经过应对举动者i来插补敌对联系的查询值,即ximpij=xji(Huisman, 2009)。

重建法最大的长处就是答应研讨者最大化地运用有用信息去构建社会网络。有研讨标明,当社会网络中存在缺失数据时,仅有437%的联系可以被解说,而运用重建法后,则可以解说缺失数据网络中897%的联系数据(Neal, 2008)。可是,重建法无法构建两个无应对举动者之间的联系。假如两个无应对举动者之间存在重要联系,研讨者就无法运用重建法去正确地界说网络的结构。因而,需求用其它的插补办法来重建整个网络。例如,关于无应对举动者之间的一切联系,随机插补一个和查询密度成份额的联系,使重建网络中缺失联系的份额等于网络的查询密度。

44依据指数随机图模型的多重插补法

指数随机图模型(Exponential Random Graph Model, ERGM)又称为p

瘙 毐 模型,是用来描绘x散布状况的概率质量函数,其表达式为:

其间,q是网络的实值函数,常以θTz(x)的方式呈现,z是网络的向量值函数,其取值为网络核算值。这些核算值也被称为结构核算值,用来描绘网络中的结构,如衔接、三方联系等的数量。θ是一个维度为p×1的向量参数(θ∈Θ),ψ(θ)是一个常数,用于将函数值规范化(Koskinen, Robins, Wang, & Pattison, 2013)。

ERGM的原理是在归纳了实测网络中的多种部分结构特征状况下来核算这些网络呈现的或许性。详细进程为,首要运用马尔科夫链蒙特卡洛最大似然估量法(Markov Chain Mont Carlo Maximum Likelihood Estimation, MCMCMLE)模仿出一个随机网络,然后将这个随机网络的参数与实测网络的参数进行比照,最终经过比照目标判别是否采用成果。Robins(2009)用ERGM办法对有向社会网络数据进行剖析时指出,假如模仿的随机网络不能很好地代表实测网络,那么参数将被调整并运用到下一次模仿中,且这样的循环或许至少要进行8000次,直到模仿网络可以很好地代表实测网络停止。

依据ERGM的多重插补法,指的是经过ERGM发生的多个插补值的向量替代每一个缺失数据的进程。例如,当网络数据中存在无应对的缺失数据时,依据ERGM的多重插补规律会将应对举动者和无应对举动者看作是两种不同类型的节点,然后区别应对者之间的联系以及应对者和无应对者之间的联系。最终,依据研讨者的查询意图,对缺失数据进行相应的处理。假如无应对者是随机缺失,则在网络特定结构间同质性的条件下运用ERGM对缺失数据进行多重插补。假如无应对者对错随机缺失,且研讨要点重视应对者的网络结构,则可以将包括无应对者相相关系的信息看作是外源变量,并运用规范的马尔科夫图模型进行剖析(Koskinen, Robins, Wang, & Pattison, 2013)。

依据ERGM的多重插补法最大的长处是,不只能有用地区分应对者和无应对者之间的差异是由体系误差仍是随机误差形成的,还可以在缺失数据是随机缺失的状况下,最大化地运用查询到的数据信息。依据ERGM的多重插补法从本质上而言是经过网络的部分结构去揣度整体结构。因而,即便数据有较大的缺失概率,只需网络有满足数量的部分网络子结构,就可以经过查询到的数据进行有理的揣度。Koskinen,Robins和Pattison(2010)用依据ERGM的多重插补法对一个合作联系社会网络中的缺失数据进行处理,实证及模仿研讨成果标明,这种依据模型的多重插补法可以正确地解说网络中80%的联系数据及答应有三分之一数据缺失的状况。可是,这种办法最大的缺陷是运算进程较杂乱,耗时较长。

5问题与展望

缺失数据对社会网络数据剖析形成的消沉影响首要体现在以下两个方面:(1)削减的样本量巨细、举动者及联系的信息易导致模型和数据呈现不拟合的状况;(2)缺失数据简单形成参数估量的误差。例如,Kossinet(2006)和Huisman(2009)的研讨发现,缺失数据会使社会网络数据剖析的成果发生误差,由于缺失数据不只对网络结构描绘发生消沉影响,还会轻视举动者之间的联系强弱和网络的聚类系数,简单形成中心性和度数丈量不稳定的状况。因而,缺失数据是SNA广泛运用面对的严峻问题。

从表1的四种缺失处理办法的适用条件比较中可看到,缺失数据处理办法的挑选和缺失概率、缺失机制存在较大的相关。进一步比较四种办法的优缺陷可以发现,当缺失数据是彻底随机缺失时,四种办法的参数估量是无偏的。当缺失数据对错随机缺失时,完好个案法和有用个案法虽简单易行,但简单导致信息的很多丢失及具有较低的核算成效和较大的参数估量误差。其间,和完好个案法比较,有用个案法在参数散布估量方面的误差要略小,由于有用个案法剖析的是整体有用样本的数据。但在其它参数估量方面,两种办法都呈现了较大的误差(Little & Rubin, 1989)。重建法和依据ERGM的多重插补法在非随机缺失的状况下,可以疏忽缺失机制的影响而直接在缺失概率较小(20~30%)的网络中运用,两种办法在参数估量方面没有体现出太大的误差,可是假如网络中的缺失概率较大时,两种办法会遭到缺失机制的影响。

当数据是随机缺失时,重建法具有较好的核算成效,对社会网络进行描绘性剖析时,如核算网络的均匀度数、互利性和传递性等网络核算特征值,即便缺失概率到达50%,重建法依然可以体现杰出(Huisman, 2009)。但重建法只能用于特定网络的数据缺失处理,且在某些状况下会高估衔接的数量。尽管,在社会网络中的数据缺失概率不大时,重建法和依据ERGM的多重插补法均没有太大的差异,可是后者可以运用插补值间的差异来衡量估量成果中不断定性的很多信息。和重建法相同,当社会网络中的缺失数据样本量在中等规模以下时,依据ERGM的多重插补法具有较小的参数估量误差且不会轻视规范误,但这种办法仅有的缺陷就是运算进程杂乱,需求做很多的作业来构建插补集以便于进行成果剖析,且当缺失数据样本量大时,模仿网络和实测网络或许会呈现不拟合的状况。

相关资讯
最新新闻
关闭