软件工程课程设计社交网络数据收集算法的设计组号第 21 组组长姓名:盖云东学号:130104010049组员姓名:任志成学号:130104010121组员姓名:马剑楠学号:130104010004组员姓名:陈海涛学号:130104010045摘要随着互联网的进展,人们正处于一个信息爆炸的时代。社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。一些社交平台如 Twitter、新浪微博、人人网等,允许用户申请平台数据的采集权限,并提供了相应的 API 接口采集数据,通过注册社交平台、申请 API 授权、调用 API 方法等流程猎取社交信息数据。但社交平台采集权限的申请比较严格,申请成功后对于数据的采集也有限制。因此,本文采纳网络爬虫的方式,利用社交账户模拟登录社交平台,访问社交平台的网页信息,并在爬虫任务执行完毕后,及时返回任务执行结果。相比于过去的信息匮乏,面对现阶段海量的信息数据,对信息的筛选和过滤成为了衡量一个系统好坏的重要指标。本文运用了爬虫和协同过滤算法对网络社交数据进行收集。关键词:软件工程;社交网络;爬虫;协同过滤算法目录摘要 2 目录 2 课题讨论的目的 1 1.1 课题讨论背景 1 2 优先抓取策略 -—PageRank 1 2 。 1 PageRank 简介 2 2 。 2 PageRank 流程 2 3 爬虫 3 3.1 爬虫介绍 3 3.1.1 爬虫简介 3 3 。 1 。 2 工作流程 3 3 。 1 。 3 抓取策略介绍 4 3.2 工具介绍 5 3.2 。 1 Eclipse 5 3.2 。 2 Python 语言 5 3.2.3 BeautifulSoup 6 3 。 3 实现 6 3 。 4 运行结果 7 4 算法部分 7 4 。 1 猎取数据的三种途径 7 4.1.1 通过新浪微博模拟登录猎取数据 7 4 。 1.2 通过调用微博 API 接口猎取用户微博数据 8 4.2 基于用户的协同过滤算法 9 4.2 。 1 集体智慧和协同过滤 10 4.2.2 深化协同过滤核心 10 4.3 算法实现 12 结论 15 参考文献 15 课题讨论的目的1.1课题讨论背景互联网导致一种全新的人类社会组织和生存模式悄然走进我们,构建了一个超越地球空问之上的、巨大的群体——网络群体 ,21 世纪的人类社会正在逐渐出现出崭新的形态与特质,网络全球化时代的个人正在聚合为新的社会群体。随着社交网站的兴起,网络社交蓬勃进展,新的互联网热再次升温,有分析人士甚至说,网络社交将缔造人际交往的新模式。互联网的兴起打破了传统的社会交往方式,简单、快捷和无距离...