增加了新闻聚合的功能……

By admin at 2014-07-07 • 482点击

新闻聚合这个功能大概是一个月前写的吧。
程序每天自动抓取最新校内新闻,图片外链修改为绝对路径,删除无用html标签,并自动注册账号在对应版块发布,如果不存在该版块则自动注册。大概做了十个左右的不同的Spider,后期会继续增加。
不过就算只有十个,目前Spider这部分代码量也超过了3000行,每个Spider都是不同的,包括最新内容参数获取、URL获取、标题&内容解析、异常处理(这个最要命,每个都完全不同)等等都不相同,可以复用的代码也就几百行。
依旧是50线程并发的快速抓取……

3 回复 | 直到 2014-07-08

帅气~~这么麻烦也被你搞定了...
不过无非是想产生多点内容...但事实上对于学生用户来说,有效信息少,所以这样还是不能留住人,也没法鼓励用户产生内容...得想办法鼓励用户在消费内容的同时产生内容 o(╯□╰)o 还在想怎么办好呢~~
可以把新闻分类的不?因为不选择性抓取新闻,这部分跟校园官网的新闻有何区别呢?而很少人有浏览校园官网的习惯,如果习惯看校园官网了,也就不需要ourjnu了~没习惯看网站的更加不会继续用这了~ 难道好处只好在可以聚合几个官网的新闻吗?

listen丽珊 at 2014-07-08
1

@listen丽珊 首页最下面是分类。
这些内容只是为了SEO,比较重要的栏目我整理了出来放在了导航栏:
http://ourjnu.com/n-90
http://ourjnu.com/n-96
http://ourjnu.com/n-84
http://ourjnu.com/n-97

而且这些新闻的数量增长也维持在一天10个左右,如果网站能有些人气(比如一天有个100帖),这点数量的新闻就不会造成任何影响。

admin at 2014-07-08
2

@listen丽珊 另外也收录了一些校报内容,目前只抓取到了2011年的,最新的考完试再抓取。
http://ourjnu.com/n-99

admin at 2014-07-08
3
登录 后发表评论