校群史NMF断代

来自HYWiki,开放的校园百科

21159于2023年1月8日进行的校群史量化分析。该断代基于24885HyChatting的初级数据,使用NMF(Non-negative Matrix Factorization 非负矩阵分解)技术,将第三校群以来的校群生态归为五类组成,并展示了其演替过程。

NMF断代图,以周为单位,采取四周滑动平均

图表展示

断代原理及过程

NMF技术常用于文档的主题建模。它可以通过优化方法,将一个大的非负矩阵分解为两个较小的非负矩阵的和。由于其分解输入和输出都是非负的,它无法进行正负“消去”,只能加性“拆分”。这是一种十分好的性质,使得取得的基有实际意义,易于理解。

在该项目中,被分解的矩阵为群友的按周发言分布矩阵,尺寸为659*151。659为所有有记录的校友数量,151为2020.2.16到2023.1.8的周数目。该矩阵由24885使用HuayuChatting中改装的Weekpie模块导出。其中,发言数量已经在校友维度上做了归一化,使得每一个时间差分上校友发言量的总和为“1”。这使得分解结果能够专注于“成分”而不在意每一时间段校友发言的绝对总量。

如果要将其分解为n个时代主题,就会产生两个矩阵:659*n,n*151。其中,659*n的意义是每一位校友在n个时代主题中的显著性/强度/比例/量(可以有各种理解),而n*151则描述了随着时间推进,n种成分的此消彼长,兴衰演替。这两个图在上面分别有可视化,其中第一个矩阵在每一个时代主题/主要成分中按照校友的显著性降序排列,展示前16位。

可以发现,有一些校友是在多个时代主题中均出现的,说明其在多时期的校群生态均扮演重要角色。也可以观察到条形长短不一,这反映的是某时代校友发言之间的典型比例。比如,Topic1中21361的比例是20352比例的两倍,说明在典型的第三时代场景下,蘑菇的发言量一般是wyd的两倍(参见蘑达辩论)。而2188020470的发言量在那个时代的典型比例则接近1:1。24885的一般性发言量远远超过同时代其他人。

经过细致的实验,159发现5种主要成分/时代主题对于描述第三校群以来校群生态的演替最为合适。如果更多(取6、7、8),能够反映更加细节的时代差异,然而过于精细,难以与校群史事件相互照应;而如果更少(取2、3、4),就丢失了一些有趣的历史细节。当然,这一些尝试给出的结果也有深刻意义,只是不适合作为史纲使用。