巴西研究人员抓取 20 亿条 Discord 消息公开发布
2025-05-21 23:52 by 快乐基因
巴西研究人员使用公共 API 抓取了逾 20 亿条 Discord 消息,匿名化数据后将其公开。此举引发了 Discord 社区的恐慌,担心隐私曝光。Discord 服务器由用户生成,可设置为公开或私有,新用户可通过发现功能搜寻公开的服务器。研究人员利用该功能绘制了所有公开服务器的地图,截至 2024 年 11 月 17 日,共发现 31,673 个服务器。他们随机选择了其中 10% 的服务器进行数据抓取,汇集了 2015-2024 年期间发布的帖子,他们发布的数据集包含了 3,167 台服务器的 4,735,057 名独立用户的 2,052,206,308 条消息,压缩后的数据库容量为 118GB。研究人员表示创建该数据集是为了方便其他研究人员进行各种主题的研究。
arxiv.org/abs/2502.00627
www.404media.co/researchers-scrape-2-billion-discord-messages-and-publish-them-online/
#隐私
2025-05-21 23:52 by 快乐基因
巴西研究人员使用公共 API 抓取了逾 20 亿条 Discord 消息,匿名化数据后将其公开。此举引发了 Discord 社区的恐慌,担心隐私曝光。Discord 服务器由用户生成,可设置为公开或私有,新用户可通过发现功能搜寻公开的服务器。研究人员利用该功能绘制了所有公开服务器的地图,截至 2024 年 11 月 17 日,共发现 31,673 个服务器。他们随机选择了其中 10% 的服务器进行数据抓取,汇集了 2015-2024 年期间发布的帖子,他们发布的数据集包含了 3,167 台服务器的 4,735,057 名独立用户的 2,052,206,308 条消息,压缩后的数据库容量为 118GB。研究人员表示创建该数据集是为了方便其他研究人员进行各种主题的研究。
arxiv.org/abs/2502.00627
www.404media.co/researchers-scrape-2-billion-discord-messages-and-publish-them-online/
#隐私