公开待跟进未分类

面向个人知识学习场景的 B 站课程视频解析与 Markdown 精读笔记生成 Agent(MVP)

提交时间

2026/04/21

详细需求

我希望搭建一套面向个人学习场景的 AI Agent,用于自动处理 B 站课程授课视频,并生成高质量、可编辑的 Markdown 精读笔记。这个系统的目标不是简单地把视频转写成文字,也不是生成流水账式摘要,而是尽量还原老师讲课时的推导逻辑、知识脉络和论证过程,让我在没有完整看完视频的情况下,也能较充分地吸收课程核心内容;对于特别感兴趣的部分,我再回到原视频精听。 当前 MVP 阶段,希望系统先支持手动粘贴单个 B 站视频链接,随后自动完成整套处理流程并输出结果。后续再扩展为多个链接批量处理、任务排队、失败重试、进度显示和历史记录管理。 在处理能力上,系统需要支持中、英、德三种语言的语音识别,并能对混合语种内容进行分段识别。最终输出以中文整理稿为主,同时保留关键术语原文。除主产物外,可选附带完整逐段转写稿作为补充材料,便于回查原始内容。 在最终产物上,我希望生成的是Markdown 可编辑文本,而不是 PDF。主产物应更接近一篇可以连续读下去的精读文章,而不是生硬的结构化摘要。文章应尽量保持老师原本的讲述逻辑和表达顺序,在不改变原意的前提下做适度整理,使其更通顺、更适合阅读。重点保留推导过程、概念之间的连接关系、知识展开脉络,而不是只提炼结论。时间戳不需要全面保留,只在关键段落保留,便于我快速回看视频对应位置。 针对课程授课视频,系统还需要自动识别授课过程中的关键视觉信息,包括但不限于 PPT、板书、公式推导页面、图表页和关键演示画面。截图不追求数量多,而要追求“少但准”。重点画面的识别应优先结合转写文本中的提示信息,例如“注意”“关键”“这里非常重要”“我们来推导一下”等表述,在这些真正值得停留的教学节点进行截图,并在最终 Markdown 中与对应内容关联。 从我的实际痛点来看,目前最大的问题有两个:第一,现有流程无法自动化批量处理,仍然需要人工逐个操作;第二,现有识别结果更像流水账,不能形成高质量的课程笔记。因此,这个项目的评价重点不是单纯追求转写速度,而是最终笔记质量,尤其是对课程逻辑、推导过程和知识脉络的还原质量。宁可前期处理慢一些,也希望最后生成的内容更像真正认真听课后整理出来的笔记。 当前我的人工流程大致是:先把 B 站链接放到 Parsevideo 一类网站转换为可下载视频链接,再把链接放进通义听悟做语音识别,最后再把文本送入 GPT 总结成 Markdown,并放到 Trymap 生成思维导图。这个流程的问题是需要人工逐个操作、等待时间长、自动化程度低,而且生成的文本无法真正抓住授课重点。希望新系统能够尽量整合这些步骤,在合规前提下,完成从视频输入到 Markdown 精读稿输出的一体化处理。