关于

一个口语喜剧剧本档案,收录漫才、相声、单口、コント、落語等作品。本站只保存文字与元数据,不托管音视频,每条目链回原视频,希望读者去原片支持创作者。

剧本由机器初步处理(抓取 → 转写 → 分说话人 → 错字纠正),再由人手工校对。欢迎 fork 仓库本地编辑或在 GitHub 上直接改 yaml,提 PR 即可。

本站非营利、无广告、无追踪。版权方如需下架,请通过 GitHub Issue 联系。

详细文档(数据结构、本地编辑、跑 pipeline)
数据结构

每条作品由两个文件组成,文件名(去掉扩展名后的部分,下文称 slug)相同。例如本页这条作品的 slug 是 manzai-brothers-2025-骗-假-不留-VVVqPK,对应:

  • web/src/content/manzai/<slug>.md — 元数据(标题、演员、来源 URL、标签、状态等)
  • web/src/content/dialogues/<slug>.yaml — 对话内容,每条 utterance 含 id / 时间戳 / 说话人 / 文字 / 翻译

以上路径是相对 web 仓库 根目录的。每个详情页右上「在 GitHub 上编辑」直接跳到对应 yaml 的网页编辑器。

本地编辑(推荐)
git clone https://github.com/manzai-archive/web
cd web
npm install
npm run dev

浏览器打开 http://localhost:4321/web/,进入任一详情页:

  • 右上「编辑」按钮 → 进入编辑模式
  • 点说话人名字 → 切换
  • 点文字 → 直接修改
  • 左侧 ⋮⋮ 拖动 → 调整顺序
  • 右侧 ⋯ → 上方 / 下方插入新行 / 删除该行
  • ⌘Z / ⌘⇧Z 撤销重做
  • 「保存」按钮直接写入本地 yaml 文件

列表页有「+ 新增条目」入口。这些写入接口仅在 npm run dev 时存在;GitHub Pages 部署的是只读静态站。

编辑完后 git commit,提 PR 到 main 分支即可。

跑 pipeline 自动添加新作品(可选)

如果想从一个 YouTube / B站 链接自动生成一个新条目,需要 pipeline 仓库。它在 GPU 机器上跑,封装在 Docker 里:

git clone https://github.com/manzai-archive/pipeline
git clone https://github.com/manzai-archive/web    # 必须并排放
cd pipeline
cp .env.example .env
# 编辑 .env,填入:
#   HF_TOKEN=...        # huggingface token(用于 pyannote 模型)
#   VLM_API_KEY=...     # OpenAI 兼容的 LLM API key(用于纠错 / 翻译 / 标题清理)
#   VLM_BASE_URL=...    # API 地址(如 https://api.ofox.ai/v1)

docker compose build
docker compose run --rm pipeline ingest \
    "https://www.youtube.com/watch?v=XXXX" \
    --group-slug nakagawake \
    --tag 寄席 --tag 2024 \
    --language ja

输出会写到隔壁 ../web/src/content/manzai/....../dialogues/...--group-slug 必须是 web/src/content/performers/<slug>.yaml 里已经存在的演员组合(比如 nakagawakemanzai-brothers)。新演员先在 web 仓库里建一个 performer yaml。

没有 GPU 也能跑(CPU 慢但能用);具体看 pipeline 仓库的 README。

校对建议

自动转写常出现:同音错字、说话人粘连(两人同时说被识别为一段)、说话人错配(特别是声音相近的搭档)。这些都靠人工校对修正 — 编辑器的拖动 / 增删 / 切换说话人就是为这些情况设计的。

维护:wheatfox · 仓库:web / pipeline