关于
一个口语喜剧剧本档案,收录漫才、相声、单口、コント、落語等作品。本站只保存文字与元数据,不托管音视频,每条目链回原视频,希望读者去原片支持创作者。
剧本由机器初步处理(抓取 → 转写 → 分说话人 → 错字纠正),再由人手工校对。欢迎 fork 仓库本地编辑或在 GitHub 上直接改 yaml,提 PR 即可。
本站非营利、无广告、无追踪。版权方如需下架,请通过 GitHub Issue 联系。
详细文档(数据结构、本地编辑、跑 pipeline)
每条作品由两个文件组成,文件名(去掉扩展名后的部分,下文称 slug)相同。例如本页这条作品的 slug 是
manzai-brothers-2025-骗-假-不留-VVVqPK,对应:
-
web/src/content/manzai/<slug>.md— 元数据(标题、演员、来源 URL、标签、状态等) -
web/src/content/dialogues/<slug>.yaml— 对话内容,每条 utterance 含 id / 时间戳 / 说话人 / 文字 / 翻译
以上路径是相对 web 仓库 根目录的。每个详情页右上「在 GitHub 上编辑」直接跳到对应 yaml 的网页编辑器。
git clone https://github.com/manzai-archive/web
cd web
npm install
npm run dev 浏览器打开 http://localhost:4321/web/,进入任一详情页:
- 右上「编辑」按钮 → 进入编辑模式
- 点说话人名字 → 切换
- 点文字 → 直接修改
- 左侧 ⋮⋮ 拖动 → 调整顺序
- 右侧 ⋯ → 上方 / 下方插入新行 / 删除该行
- ⌘Z / ⌘⇧Z 撤销重做
- 「保存」按钮直接写入本地 yaml 文件
列表页有「+ 新增条目」入口。这些写入接口仅在 npm run dev 时存在;GitHub Pages 部署的是只读静态站。
编辑完后 git commit,提 PR 到 main 分支即可。
如果想从一个 YouTube / B站 链接自动生成一个新条目,需要 pipeline 仓库。它在 GPU 机器上跑,封装在 Docker 里:
git clone https://github.com/manzai-archive/pipeline
git clone https://github.com/manzai-archive/web # 必须并排放
cd pipeline
cp .env.example .env
# 编辑 .env,填入:
# HF_TOKEN=... # huggingface token(用于 pyannote 模型)
# VLM_API_KEY=... # OpenAI 兼容的 LLM API key(用于纠错 / 翻译 / 标题清理)
# VLM_BASE_URL=... # API 地址(如 https://api.ofox.ai/v1)
docker compose build
docker compose run --rm pipeline ingest \
"https://www.youtube.com/watch?v=XXXX" \
--group-slug nakagawake \
--tag 寄席 --tag 2024 \
--language ja
输出会写到隔壁 ../web/src/content/manzai/... 和 .../dialogues/...。--group-slug 必须是 web/src/content/performers/<slug>.yaml 里已经存在的演员组合(比如 nakagawake、manzai-brothers)。新演员先在 web 仓库里建一个 performer yaml。
没有 GPU 也能跑(CPU 慢但能用);具体看 pipeline 仓库的 README。
自动转写常出现:同音错字、说话人粘连(两人同时说被识别为一段)、说话人错配(特别是声音相近的搭档)。这些都靠人工校对修正 — 编辑器的拖动 / 增删 / 切换说话人就是为这些情况设计的。