公开待跟进未分类

面向个人知识学习场景的 B 站课程视频解析与 Markdown 精读笔记生成 Agent（MVP）

提交时间

2026/04/21

详细需求

我希望搭建一套面向个人学习场景的 AI Agent，用于自动处理 B 站课程授课视频，并生成高质量、可编辑的 Markdown 精读笔记。这个系统的目标不是简单地把视频转写成文字，也不是生成流水账式摘要，而是尽量还原老师讲课时的推导逻辑、知识脉络和论证过程，让我在没有完整看完视频的情况下，也能较充分地吸收课程核心内容；对于特别感兴趣的部分，我再回到原视频精听。当前 MVP 阶段，希望系统先支持手动粘贴单个 B 站视频链接，随后自动完成整套处理流程并输出结果。后续再扩展为多个链接批量处理、任务排队、失败重试、进度显示和历史记录管理。在处理能力上，系统需要支持中、英、德三种语言的语音识别，并能对混合语种内容进行分段识别。最终输出以中文整理稿为主，同时保留关键术语原文。除主产物外，可选附带完整逐段转写稿作为补充材料，便于回查原始内容。在最终产物上，我希望生成的是Markdown 可编辑文本，而不是 PDF。主产物应更接近一篇可以连续读下去的精读文章，而不是生硬的结构化摘要。文章应尽量保持老师原本的讲述逻辑和表达顺序，在不改变原意的前提下做适度整理，使其更通顺、更适合阅读。重点保留推导过程、概念之间的连接关系、知识展开脉络，而不是只提炼结论。时间戳不需要全面保留，只在关键段落保留，便于我快速回看视频对应位置。针对课程授课视频，系统还需要自动识别授课过程中的关键视觉信息，包括但不限于 PPT、板书、公式推导页面、图表页和关键演示画面。截图不追求数量多，而要追求“少但准”。重点画面的识别应优先结合转写文本中的提示信息，例如“注意”“关键”“这里非常重要”“我们来推导一下”等表述，在这些真正值得停留的教学节点进行截图，并在最终 Markdown 中与对应内容关联。从我的实际痛点来看，目前最大的问题有两个：第一，现有流程无法自动化批量处理，仍然需要人工逐个操作；第二，现有识别结果更像流水账，不能形成高质量的课程笔记。因此，这个项目的评价重点不是单纯追求转写速度，而是最终笔记质量，尤其是对课程逻辑、推导过程和知识脉络的还原质量。宁可前期处理慢一些，也希望最后生成的内容更像真正认真听课后整理出来的笔记。当前我的人工流程大致是：先把 B 站链接放到 Parsevideo 一类网站转换为可下载视频链接，再把链接放进通义听悟做语音识别，最后再把文本送入 GPT 总结成 Markdown，并放到 Trymap 生成思维导图。这个流程的问题是需要人工逐个操作、等待时间长、自动化程度低，而且生成的文本无法真正抓住授课重点。希望新系统能够尽量整合这些步骤，在合规前提下，完成从视频输入到 Markdown 精读稿输出的一体化处理。