昨儿捣鼓到半夜两点多,可算把这破事整完了。说起来也邪门,上周刷论坛看见有人求某网站小说资源,底下评论清一色回复”蹲一个”。手比脑子快,键盘一敲就回了句”周末我试试扒下来”,得,把自己架火上了。
一、掉坑里了
周六大清早泡了杯浓茶坐电脑前,心想不就存网页么?打开浏览器输网址,好家伙,页面花花绿绿弹窗乱飞,差点把我那用了五年的老显卡送走。随手点开几本小说,每本书都分散在几十个分页,进度条拖到底还有”下一页”等着。手动存?存到猴年马月去。
二、硬着头皮搞工具
翻出三年前写知乎爬虫的Python脚本,刚跑两页就弹验证码。气得我对着屏幕骂街,这网站反爬机制比小区门禁还严。改脚本换IP代理,免费代理池IP死得比金鱼还快。掏了三十块买付费代理,肉疼得直嘬牙花子。
- 凌晨三点卡在动态加载:明明浏览器能看到内容,脚本扒下来全是空白
- 早上七点发现分页混乱:第80页突然跳回第1页,数据全串了
- 最绝的是某本书第五章:标题显示”甜蜜告白”,实际内容是养猪技术大全
小编温馨提醒:本站只提供游戏介绍,下载游戏推荐89游戏,89游戏提供真人恋爱/绅士游戏/3A单机游戏大全,点我立即前往》》》绅士游戏下载专区
三、手动填粪坑
眼瞅着周日晚上十点,脚本总算吐出103G乱码文件。开文本编辑器一看差点心梗:重复章节像牛皮癣似的遍地都是,第12章和第112章内容一模一样。只能顶着熊猫眼逐本筛选:
1. 先删掉明显机器生成的”哈哈哈好看”水文
2. 再把书名带《》但内容是保健广告的踢出去
3. 人工核对目录,发现三本书连主角名都没改干净
媳妇半夜起夜看我还在电脑前瞪着眼,扔了句:”三十多岁人跟黄色小广告死磕,有病?”
四、临时抱佛脚
周一上班摸鱼时突然灵光一闪:用对比工具查重!下班冲回家打开BeyondCompare,设置相似度阈值拉到85%。好家伙,直接筛出四十多本复制粘贴的玩意儿。删到第78本时手都在抖,生怕把原创误杀了。
打包成110本合集那刻,电脑风扇”嗡”地一声瘫了——跟我的状态一模一样。这破事给我整出教训了:下回再手贱乱立flag,先把自家网线拔了。
后话:搞完就后悔了。这些小说,说它合法带点擦边球,说违规也没露骨描写。压缩包设了解压密码塞移动硬盘吃灰,权当给自己手欠交学费了。对,那网站今天已经改版了,我扒的数据全成了旧日历——挺省得有人来求资源。



