Co-Pilot / 辅助式
更新于 a month ago
markdown-converter
Iintellectronica
0.1k
intellectronica/agent-skills/skills/markdown-converter
💡 摘要
将各种文档格式转换为Markdown,以便进行LLM处理或文本分析。
🎯 适合人群
内容创作者数据分析师从事LLM的开发者准备材料的教育工作者需要文档转换的研究人员
🤖 AI 吐槽: “看起来很能打,但别让配置把人劝退。”
安全分析中风险
风险:Medium。建议检查:是否执行 shell/命令行指令;是否发起外网请求(SSRF/数据外发)。以最小权限运行,并在生产环境启用前审计代码与依赖。
name: markdown-converter description: Convert documents and files to Markdown using markitdown. Use when converting PDF, Word (.docx), PowerPoint (.pptx), Excel (.xlsx, .xls), HTML, CSV, JSON, XML, images (with EXIF/OCR), audio (with transcription), ZIP archives, YouTube URLs, or EPubs to Markdown format for LLM processing or text analysis.
Markdown Converter
Convert files to Markdown using uvx markitdown — no installation required.
Basic Usage
# Convert to stdout uvx markitdown input.pdf # Save to file uvx markitdown input.pdf -o output.md uvx markitdown input.docx > output.md # From stdin cat input.pdf | uvx markitdown
Supported Formats
- Documents: PDF, Word (.docx), PowerPoint (.pptx), Excel (.xlsx, .xls)
- Web/Data: HTML, CSV, JSON, XML
- Media: Images (EXIF + OCR), Audio (EXIF + transcription)
- Other: ZIP (iterates contents), YouTube URLs, EPub
Options
-o OUTPUT # Output file -x EXTENSION # Hint file extension (for stdin) -m MIME_TYPE # Hint MIME type -c CHARSET # Hint charset (e.g., UTF-8) -d # Use Azure Document Intelligence -e ENDPOINT # Document Intelligence endpoint --use-plugins # Enable 3rd-party plugins --list-plugins # Show installed plugins
Examples
# Convert Word document uvx markitdown report.docx -o report.md # Convert Excel spreadsheet uvx markitdown data.xlsx > data.md # Convert PowerPoint presentation uvx markitdown slides.pptx -o slides.md # Convert with file type hint (for stdin) cat document | uvx markitdown -x .pdf > output.md # Use Azure Document Intelligence for better PDF extraction uvx markitdown scan.pdf -d -e "https://your-resource.cognitiveservices.azure.com/"
Notes
- Output preserves document structure: headings, tables, lists, links
- First run caches dependencies; subsequent runs are faster
- For complex PDFs with poor extraction, use
-dwith Azure Document Intelligence
五维分析
清晰度9/10
创新性7/10
实用性9/10
完整性8/10
可维护性8/10
优缺点分析
优点
- 支持多种格式
- 无需安装
- 保留文档结构
- 由于缓存,后续运行更快
缺点
- 复杂的PDF可能需要Azure集成
- 依赖项缓存可能会减慢首次运行
- 提到的错误处理有限
- 对非技术用户没有图形界面
相关技能
免责声明:本内容来源于 GitHub 开源项目,仅供展示和评分分析使用。
版权归原作者所有 intellectronica.
