2009-12-28
OpenLab社区数据
栏目:项目
16,986 Views
OpenLab社区:http://www.openlab.net.cn/
说明:
本次提供的数据集来自Openlab多年的社区沉淀,其中包括62190名用户产生的5161篇blog文章,25389篇文章评论,1268871条聊天室聊天记录,1933459条论坛帖子,260723条论坛主题及其他一些周边数据,基于保护用户隐藏的考虑,本次提供的数据集对所有的用户id,条目Id进行了加密混淆,混淆后的数据依然保持原有的关联性、完整性.但无法同openlab任何具体的用户相对应。作为一款开源的社区软件,Openlab希望数据使用者本着Open、Share的精神在http://groups.google.com/group/resys/ 分享您对该数据集的研究过程。使用本数据前,请您确认自己已经认真阅读并承诺遵守以下协议:
1、数据集的使用不能带有任何商业及盈利性目的,在此前提下对数据集进行的研究、使用无须挣争得openlab的许可。
2、公开发表的论文及其他资料如果涉及该数据集、务必注明来源为www.openlab.net.cn,并在 http://groups.google.com/group/resys/以恰当的方式告知其他关注者。
3、在公开场合公布的与本数据集有关的算法与模型,在开源的前提下,Openlab有权将其工程化,数据使用者应本着Open、Share的精神给予相关的技术支持。
4、禁止对混淆后的数据进行任何还原及还原的尝试,禁止就此问题发表任何公开性的讨论。
有关Openlab开源协议的的相关说明请参考:http://www.openlab.net.cn/forums/threads/1278748.aspx
数据文件编码格式为UTF-8,字段之间的分隔符为”::”,时间字段为时间同1970-01-01 相差的毫秒数
————————————————————
blogcomments.txt 博客文章评论数据
BlogPostCommentId::BlogPostId::BlogUserId::CommentUserId::CommentDate
评论id::被评论的博客文章Id::博客所属用户id::发表评论的用户Id::评论时间
————————————————————
blogPosts.txt 博客文章数据
BlogPostId::BlogPostUserId::PostDate
博客文章Id::发表文章的用户Id::发表文章的时间
————————————————————
BlogPostsInCategory.txt 博客文章所属类别
BlogPostId::BlogPostCategoryId
博客文章Id::博客文章类别Id
————————————————————
BlogPostsInTag.txt 博客文章所属tag
BlogPostId::TagId
博客文章Id::博客文章TagId
————————————————————
ChatMessages.txt 聊天室聊天数据
ChatRoomId::ChatUserId::ChatDate
聊天室Id::用户Id::发送消息时间
————————————————————
ForumPosts.txt 论坛帖子数据
PostId::ForumId::PostUserId::PostDate::ThreadId::ThreadUserId
帖子Id::帖子所属的版块::发帖用户Id::发帖时间::帖子属所属主题::发布主题的用户Id
说明:论坛的组织结构为Forum,Thread,Post forum即我们通常说的版块,一个Thread下有若干Post
—————————————————————
ForumPostsInTag.txt 论坛帖子所属Tag数据
PostId::ForumTagId
帖子Id::TagId
—————————————————————
ForumThreads.txt 论坛主题数据
PostId::ThreadId::ForumId::ThreadUserId::PostDate::TotalViews:TotalReplies
构成主题的第一个帖子Id::主题Id::版块Id::用户Id::发布时间::总浏览数::总回复数
—————————————————————
UserProfile.txt 用户资料数据
UserId::Gender::BloodGroup::Age
用户id::性别::血型::年龄
















