读取PDF、word、ppt需求转md格式
本文诉求
在实际的业务需求中,不少产品会将需求文档,业务资料、方案文档等写在 pdf 或者 word,甚至 ppt 中,内部包含文字、图片等。
但在用 AI 做需求解析、用例生成、业务梳理时,一直有个普遍痛点:AI 无法直接精准读取 PDF/Word/PPT 里的图文内容,只能手动复制文字、单独保存图片,再重新整理成文档,费时又容易遗漏信息。
有些同学在问:有没有办法把 PDF、Word、PPT 直接转换成标准 Markdown,还能保留原图不丢失?方便我们直接上传给ai进行用例生成等场景?
答案是有的,我基于 Pandoc + PyMuPDF4LLm 封装了一套 Skill,支持 PDF、Word、PPT 转为Markdown,自动提取图文、自动归类存放。
原理是什么?
Word / PPT 转换原理
...
