TG Telegram Group Link
Channel: Save The Web Project
Back to Bottom
STWP 2025 第 4 周周报

- NicoNico Shunga 存档进行中……已完成存档缩略图和原图,只剩网页本身了。预计 29 号 shutdown 前存下的作品数量会无限接近 114514 。完成后上传 WARC。ArchiveTeam 同时也在做这个。
- c2025-1: 进度 90%
- 不知道是不是因为离画吧关站即将一周年了 (2024-02-08),最近 14 天收到了 3 封备份找回请求。
- 响应了博客/文章收录删除请求。
STWP 2025 第 5 周周报

- NicoNico Shunga WARC 已上传,最终数量为 114517 ,可惜,没有撞上吉利数字。WARC 包含缩略图、PC详情页、原图。140GiB+
- c2025-1: 100%
- 一封画吧备份找回请求。
Save The Web Project
感谢 @waterwhiter 大年初一发的 PR,丑搜的高级搜索现已通过 fn-sphere 实现可视化地组合查询语句!🥰
STWP 2025 第 6 周周报

- 摸鱼
https://saveweb.github.io/88x31-Museum/

最后更新于两年前,一直没发。
https://tracker.archiveteam.org/goo-gl/
AT 开始跑 goo.gl 了,欢迎大家去帮忙。

git clone https://github.com/ArchiveTeam/goo-gl-grab.git
cd goo-gl-grab
docker build -t archiveteam/goo-gl-grab .
docker run -d -it --name googl --label=com.centurylinklabs.watchtower.enable=true --log-driver json-file --log-opt max-size=50m --restart=unless-stopped archiveteam/goo-gl-grab --concurrent 10 saveweb_community


^^^ 可以把 saveweb_community 改成你自己的 id ,单 ip 并发目前不建议 20+ 。
* 需要海外 vps 或海外实机,不要在国内机子上跑,也不要挂代理跑!!
STWP 2025 第 7 周周报

- 无事。摸鱼。天稍稍凉矣。

STWP 2025 第 8 周周报

- 摸鱼。
前情提要:「关于竹白的下线通知

目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。

擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。
如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。

#help
STWP 2025 第 9 周周报

- 存 zhubai @yzqzss
- biliarchiver 加了个 clean 子命令 @Ovler

STWP 2025 第 10 周周报

- day1: 写了个能将就工作的 CrawlHQ 实现
https://github.com/saveweb/altcrawlhq_server
- day2: 部分梳理了 Zeno v2 的框架设计
- day3: 开始给 Zeno V2 写 local queue
- day4: 写完了,微调,测试,发 PR: https://github.com/internetarchive/Zeno/pull/243
- day5: 之前注意到 Zeno 存新世界的大门 (https://blog.xinshijiededa.men) 会解析出一堆不存在的 url assets。
发现是因为 inline css url() 解析是简单正则提取,只是简单地把所有 html style 属性里的 () 括号里的东西当成 url 提取出来,于是把 css 中的函数 tokens (如 rgb() )也提取出来了。
看了 https://www.w3.org/TR/css-values-4/https://www.w3.org/TR/css-syntax-3/ ,css 里 url()、src() 和 @import <string> 都能用来发网络请求。
src() 现在还没有被任何浏览器实现,可以直接忽略。( https://cssdb.org/#src-function )
url() 分 unquoted/quoted 两种,解析方法不同,都有自己的转义规则。
然后在 github 上搜了下 /url =.*getPropertyValue\(/ AND (language:JavaScript OR language:TypeScript OR language:HTML),发现一堆往 css 里存自定义的 <string> url,然后在 js 里取值的代码。这种迷惑行为广泛存在,所以我觉得那些以 https?://|// 开头的 <string> 也有解析价值。
综上,用简单的正则提取 css 里的外链可能不太合适。
但目前 golang 这边的 css parser 库们都没做 url/string value 实际内容值的细提取,都是 lexer/tokenizer 粗切片的库,不太能用。
那么之后的计划就是写个小 parser,把粗的 <url> 和 <string> token 解析出实际值。然后和现有的粗 parser 拼一起就行了。
- day6: 一点微调,PR 合进去了。
- day7: 无。
STWP 2025 第 11 周周报

无事。
上周忙,无周报。

整两个小活:
- 和其它开源组织的 gitea 实例一样,我们的 https://git.saveweb.org 也被傻乎乎的 AI BOT 跟着 history 爬每个 commit 的 diff 和 raw ,虽然对我们没什么影响。受 anubis 启发,现已加上了手搓(素材从 anubis 复制的)的靠 CSS 就能工作的反 AI WAF (无需 JS)。之后会撤销 WAF。
- “丑搜”限时改名“挖抓搜”。
STWP 2025 第 13 周周报

- 竹白存档结束。但竹白服务器暂时还没关。
- 又响应了几个画吧备份请求。
- 忙

预告:第 19 周周报时会提及 11~13 周发生的趣事。
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
两个 abusers:
1.
chatId: tg://user?id=5202245475 , fromUser: 'Dual'

这谁?滥用我们的公共 bot 向 IA 上传了500多个宅舞视频。已封禁该 Telegram 用户。这用户看起来还是小号,没有在任何公开群出现过。

2. https://archive.org/details/@anonymous_internet_archive_member
这又是谁?往 IA 上传了 800 多个“战斗吧歌姬”的直播录播,还在持续上传。这完全是滥用,等着被封号吧。

无话可说了。🤬🤬
Save The Web Project
实时推送已被存档的 BiliBili 视频: https://hottg.com/+ibNyu3ZpXeJlMzU1
Bot已改造,实时 log 已开启,后续所有请求均会在该频道留档
HTML Embed Code:
2025/06/29 09:07:31
Back to Top