源码介绍

1. 前端使用纯HTML、JS和JSON(链接统计除外),后端使用Python生成标准JSON格式。
2. 自带30多个常用网站的数据采集规则。
3. 使用多线程进行数据抓取,30多个网站的数据可以在5秒内完成采集。
4. 同一网站的内容放置在一个框架内,可以进行局部刷新和滚动操作。
5. 显示数据的更新时间(根据采集页面的自带更新时间或根据时间排序的第一条时间进行采集,若无更新时间,则使用采集完成时间)。
6. 对内容链接进行防盗链处理,采用base64编码+字符逆序+大小写反转+再次base64编码进行加密(可以通过修改大小写转换的顺序或增加数字替换来实现不同的加密密码)。
7. 统计内容链接的点击次数。
8. 部分内容设置鼠标悬停提示(例如,App Store排行榜有更新内容、时间和版本号)。

部署教程

在终端中输入命令 python3 caiji.py 运行采集程序(若需后台运行,请使用screen或nohup命令)。
打开浏览器访问首页。
采集程序 caiji.py 为后端采集程序,其余文件为前端文件,需位于同一目录下。
若需修改相应设置,请查看源码中的注释。
admin.php 为第三方数据库管理程序,用于查看内容链接的统计数据(默认密码为 admin,请在文件中进行修改)。
点击统计数据库 log.db 会在首次访问内容链接时生成,若未生成,请确保主目录具有写权限。
为了安全起见,将后端程序 caiji.py 和数据库查看程序 admin.php 更改为复杂的文件名,或将其移动至非web目录下(需要同时修改文件内的生成的JSON保存目录为网站根目录,默认为当前目录)。

默认使用多线程进行数据抓取,若出现问题,请改用单线程模式。

对于今日头条的采集,请更换为您自己的cookie,因为短时间内的采集会得到大量相同的内容(目前是每分钟采集一次并合并10次数据)。使用不同的cookie进行分段采集,几乎不会出现重复的情况,但随着时间的推移,推荐内容会变得杂乱无章(建议定期更换cookie或添加随机的头条cookie生成规则)。

采集站的Logo大部分已修改为透明的png图层,在非白色背景下可能会显得不太美观。

#全新 #热门 #内容 #系统 #聚合。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。