去中心化在線社交網(wǎng)絡(luò)(Decentralized? Online Social Networks)為研究社交網(wǎng)絡(luò)用戶交互、治理、隱私保護(hù)與跨社區(qū)內(nèi)容傳播提供了全新的研究對象。然而,服務(wù)器分散、接口異構(gòu)與嚴(yán)格限速使得“一次性抓取全平臺快照”成為研究去中心化在線社交網(wǎng)絡(luò)的一大挑戰(zhàn)。復(fù)旦大學(xué)網(wǎng)絡(luò)大數(shù)據(jù)實驗室聚焦去中心化在線社交網(wǎng)絡(luò)大規(guī)模數(shù)據(jù)快速采集問題,設(shè)計實現(xiàn)了面向去中心化社交網(wǎng)絡(luò)的實時數(shù)據(jù)采集與預(yù)處理框架 FediLive。該框架圍繞“全量、實時、合規(guī)”三大目標(biāo),構(gòu)建了高并發(fā)、高容錯、易擴(kuò)展的跨實例爬取與數(shù)據(jù)預(yù)處理框架。通過動態(tài)限速、輪詢?nèi)ブ?、ID?沖突解決及多線程調(diào)度等技術(shù),能夠在有限計算資源下高效完成超過9000個Mastodon?實例的全平臺采集。
目前 FediLive 發(fā)布了 1.0.0 版本,對應(yīng)論文發(fā)表于WWW'25會議的resource track。我們針對大規(guī)模、周期性數(shù)據(jù)采集需求,重點強(qiáng)化了以下功能:
- 自動實例發(fā)現(xiàn)與監(jiān)控:為每次爬取實時更新上線或遷出的實例,支持彈性擴(kuò)容與任務(wù)重分配
- 增量式爬取 & 版本化快照:按時間窗生成差分?jǐn)?shù)據(jù),便于縱向演化研究
- 合規(guī)采集:全面遵守各實例 robots.txt 與 API?限速策略,默認(rèn)屏蔽非公開內(nèi)容,提高倫理合規(guī)性
歡迎各位研究者與開發(fā)者試用并提出寶貴意見!?
FediLive 相關(guān)網(wǎng)址如下:?
學(xué)者網(wǎng)

評論 0