HYWiki用户统计

来自HYWiki,开放的校园百科

2024年2月29日,21159试图弄清楚HYWiki的用户分布情况,进行了一次用户统计。

目标

本次统计主要面向三个维度:

  • 届别:HYWiki的各届用户占比多少?
  • 性别:HYWiki的男女用户占比多少?
  • 班别:HYWiki中华育特色班与非特色班学生占比多少?

困难与解决方案

统计用户情况主要面临以下困难:

  • 早期用户非实名
  • 同一人注册多账号
  • 共用账号和公共账号

因此,在届别统计中,21159主要使用两个易验证数据代替:学号词条数据和实名化之后的新用户注册数据。

学号词条中,最常见的是五位学号人物词条(如21159),而班号词条(如248)和以学号、班号冠名的事物词条(如22届7班音乐群)也计入学号词条。该指标衡量的是不同班级/届别在HYWiki的影响力大小。它能用于估计用户分布,建立在这一假设之上:不同群体学生的平均创建词条能力相近,且类似地聚焦于本群体内人物词条,因而群体用户数正比于群体相关词条数。然而,事实中有一些个体/群体的创建词条能力远超平均值(如227与248),这一统计相对放大了热情程度较高的用户群体占比。

新用户注册数据是指2023年11月26日HYWiki注册实名化后的用户登记。这一数据有助于研判HYWiki用户发展的未来趋势,但是反应早期用户群体能力有限。

性别、班别统计与届别统计口径略有不同。在使用学号词条数据时,这两种统计不计入班号词条和相关事物词条,仅使用正则表达式匹配学号进行统计。“性别”的操作性定义是五位学号模100的余数与50的大小关系,如果小于50则为“女”,大于50则为“男”,暂不考虑其他情况。236班计入特色班-科技班。

图表和讨论亦可见华育维基交流组记录与精华消息。

图表

大图

11.16为笔误,应为11.26
11.16为笔误,应为11.26
即上两图的比对。
即上两图的比对。

以图库形式呈现

统计分析

届别

使用卡方检验观察新旧届别分布差异,如果只对照检测存量词条和新增用户中21(含前21)、22、23、24四个类别的分布,则无显著差异(p>>0.05)。然而一旦加入25、26、27届数据,则差异立刻显著(p<0.001)。

使用卡方检验观察分布与均匀分布的差异。排除过少的20、21届,剩余四类的分布在新增用户中与均匀分布无显著差异,存量词条中则有显著差异。存量词条继续删除27、26届数据进行检验,仍与均匀分布有显著差异。

讨论:

存量词条中,23届的词条最多,但是26届在新增用户中占比最高,25届意外成为HYWiki影响力谷地。

27届新用户注册不少,然而编辑寥寥,或许是慑于某种压力,个体尚未形成习惯,亦未出现影响力较大社区。

可能说明HYWiki用户格局伴随着26、27届逐渐加入正在迅速蜕变,进入新状态。

老几届的新用户增长速度大致与存量词条分布一致。

性别

使用单变量z-检验(双侧)观察两种数据中性别分布与拟测华育实际性别比的差异。拟设华育女生占总体1/3(33%)。

零假设:数据中男女比例与华育学生实际男女比例无显著差异。

替代假设:数据中男女比例与华育学生实际男女比例有显著差异。

在学号词条中:零假设被推翻(p<0.05),词条男女比例与拟测男女比例存在显著差异。

在新增用户中:零假设未被推翻(p>0.05),新增用户男女比例与拟测男女比例无显著差异。

讨论:学号词条中男生得到过度代表,但是新增用户中未观察到该趋势。

可能由于更高的隐私关注度,女生的词条更少得到编辑,更容易要求删除等。

同时,较大的男生主导社群(248较为典型)编撰的较多人物词条拉高了学号词条中男生占比。

班别

类似性别统计方法,使用单变量z-检验(使用单侧)。零假设为数据中特色班学生占比不高于拟测比例。对于学号词条,拟测比例为29.46%(对特例236做出按比例修正),对于新增用户,拟测比例为27.67%。

结论也较为平行,学号词条中零假设被推翻(p=1.57e-14<<0.05),新增用户中未能推翻(p=0.135>0.05)。

讨论:学号词条中特色班得到过度代表,新增用户中未观察到该趋势。

可能是一系列热衷华育网络社群的特色班集中导致(227、228、236、237、238、248、257、258、268)。作为比较,考虑历届八班在校群史中也扮演了较为显著的角色。这反映了特色班学生学业压力相对较小,闲暇时间更多,以及对华育经历、班级荣誉的更高程度认同,催生独特的班级文化等,使得他们较多的参与华育维基编辑。

新增用户则没有显著的特色班过度代表。

总结:代表性与沉默的多数

纵观以上三维分析,存量学号词条在届别上显著不均匀,并在性别、班别上显著过度代表男生、特色班学生这两个群体。而维基实名化之后的新增用户,则在届别上相对均匀,性别和班别分布相对符合学生整体分布。

从纯粹数理理论视角来说,一种可能性是尺度效应(Scaling):社群的词条数量与社群成员人数的关系是超线性增长的,比如社群词条数量可能随社群人数的平方增长。女生的欠代表可能来自于华育女生数量少本身导致无法出现较大活跃社群,而特色班中学生的同质化则允许大型活跃社群的涌现(248)。观察到,258女生就能够建立一个中型维基社群,形成之后,其中活跃编辑者便迅速替社群内相对不活跃者铺开词条,造成存量学号词条偏高的现象。这其中亦可能存在阈值/临界点现象。比如,孤立个体可能没有意愿将社群人物全部载入维基,然而数量多于某个邻接值的较多个体协同工作,便有动力扩大全社群在维基的影响力。

从华育维基的发展历史来说,wiki出自校群-科技数码社-235一系的23564并以校群为中心进行扩散。因此,存量词条中特色班的过度代表其实是校群中这种过度代表的延续,大体上代表同一现象。在wiki建立早期,在低年级和女生中的传播一度遭遇失败。然而经过一年发展,目前HYWiki已经几乎渗透华育在校生,其传播已经全面化,多中心化,反映在大量账号申请来自于从未加入过校群体系的学生。

新增账号申请的分布在届别、性别、班别上无显著偏态是一个好现象,说明华育维基愈发接近其理想中的普世性。然而,仍需鼓励更多同学参与编辑工作,走出沉默。

值得注意的还有华育维基管理层的分布。站长和管理员八人内,100%为男生,100%为20-23届学生,100%为校群人物,75%为特色班学生(仅有23564、21159两人不是)。管理层目前已经越发丧失对华育维基用户的代表性,或许进行一定的扩大,提高维基代表性有利于维基长期发展。