Skip to content

Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.

License

Notifications You must be signed in to change notification settings

kamiLight/PaddleMIX

This branch is 3 commits ahead of, 4 commits behind PaddlePaddle/PaddleMIX:develop.

Folders and files

NameName
Last commit message
Last commit date

Latest commit

0cd81f9 · Mar 5, 2025
Aug 14, 2023
Jun 5, 2024
Feb 16, 2025
Aug 20, 2024
Mar 5, 2025
Mar 3, 2025
Mar 4, 2025
Mar 5, 2025
Oct 7, 2023
Mar 5, 2025
Aug 14, 2023
Aug 14, 2023
Feb 19, 2025
Jun 11, 2024
Jul 1, 2024
Jul 12, 2023
Jul 12, 2023
Oct 16, 2024
Jul 5, 2023
Mar 5, 2025
Feb 10, 2025
Feb 26, 2025
Dec 31, 2024
Nov 21, 2024
Feb 26, 2025
Jan 9, 2025
Aug 15, 2023
Feb 26, 2025
Aug 14, 2023

Repository files navigation

简体中文 | English

💌目录

📰新闻

🔥2025.03.10日Qwen2-VL系列多模态理解大模型功能抢先体验实战营

  • 🔥🔥多模态大模型PaddleMIX产业实战精品课第二弹:《Qwen2-VL系列多模态理解大模型功能抢先体验》。本期课程将带你在PaddleMIX框架中快速体验Qwen2-VL系列模型的多模态理解能力。深度解析模型实现细节与技术创新,带您实操多模态理解任务处理。3月10日正式开营,名额有限,先到先得:https://www.wjx.top/vm/tUIxXxF.aspx?udsid=121597

📣最新进展

🎉 2025.01.20 喜迎外部开发者在星河(AIStudio)社区开发的创作教程页面更新

  • 涵盖圣诞主题贺卡生成🎄、人物生成👤等多种应用,期待您的体验!此外,还有AI鉴宝🔍、图生音乐🎶等有趣的应用等待您来探索~
  • 🙏 衷心感谢各位开发者基于套件的精彩创作!🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或飞桨AI Studio社区

🎉 2025.01.08 发布自研PP-VCtrl视频生成控制模型

  • PP-VCtrl 是一个通用的视频生成控制模型,可广泛应用于人物动画、场景转换、视频编辑等视频生成场景。

🎉 2025.01.02 发布自研PP-DocBee文档理解多模态大模型

  • PP-DocBee是端到端的文档图像理解大模型。在学术界及内部业务场景文档理解评测榜单上,PP-DocBee均达到同参数量级别模型的SOTA水平。
点击展开更多

🎉 2024.10.31 喜迎外部开发者的创作教程页面更新

  • 🌟 自9月6日发起大模型套件精品项目征集活动以来,我们收到了30个优质开发者项目,其中25个精品项目已通过平台评估并成功加精。

  • 🙏 衷心感谢各位开发者基于套件的精彩创作!🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或飞桨AI Studio社区!

🔥2024.10.11 发布PaddleMIX v2.1

  • 支持PaddleNLP 3.0 beta版本,抢先体验其最新功能。

  • 新增Qwen2-VLInternVL2Stable Diffusion 3 (SD3)等前沿模型。

  • 发布自研多模数据能力标签模型PP-InsCapTagger;可用于数据的分析和过滤,试验案例表明在保持模型效果的条件下可减少50%的数据量,大幅提高训练效率。

  • 多模态大模型InternVL2、LLaVA、SD3、SDXL适配昇腾910B,提供国产计算芯片上的训推能力。

2024.07.25 发布PaddleMIX v2.0

  • 多模态理解:新增LLaVA系列,Qwen-VL等;新增Auto模块统一SFT训练流程;新增mixtoken训练策略,SFT吞吐量提升5.6倍。
  • 多模态生成:发布PPDiffusers 0.24.1版本,支持视频生成能力,文生图模型新增LCM。新增飞桨版peft,accelerate后端。提供基于飞桨开发的ComfyUI插件。
  • 多模态数据处理工具箱DataCopilot:支持自定义数据结构,数据转换,离线格式检查;支持基本的统计信息,数据可视化功能。

2023.10.7 发布 PaddleMIX v1.0

  • 新增图文预训练模型分布式训练能力,BLIP-2支持千亿规模训练
  • 新增跨模态应用流水线AppFlow,一键支持自动标注,图像编辑,音生图等11种跨模态应用
  • PPDiffusers发布 0.19.3 版本,新增SDXL及相关任务

🌈简介

PaddleMIX是基于飞桨的多模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练,微调,文生图,文生视频,多模态理解等丰富的多模态任务。它提供开箱即用的开发体验,同时支持灵活定制,满足不同需求,助力探索通用人工智能。

多模态理解效果示例如下:

多模态理解🤝融合了视觉👀和语言💬处理能力。包含基础感知、细粒度图像理解和复杂视觉推理🧠等功能。这些技术可应用于教育📚、医疗🏥、工业🏭等多个领域,实现从静态图像🖼️到动态视频🎥的全面智能分析。

多模态生成效果示例如下:

多模态生成✍️融合了文本💬与视觉👀的创造能力。涵盖了从文字生成图像🖼️到文字生成视频🎥的各类技术。功能涉及艺术创作🎨、动画制作📽️、内容生成📝等。可以在教育📚、娱乐🎮、广告📺等领域实现从静态图像到动态视频的创意生成。

特色应用效果示例如下(点击标题可快速跳转在线体验):

ComfyUI创作工作流 艺术风格二维码模型 多模态文档理解
二次元文生图 AI绘画|50+Lora风格叠加 视频编辑

其他特色应用示例,请查看PaddleMIX精品项目


✨主要特性

📱丰富的多模态模型库

PaddleMIX支持大量最新主流的算法基准以及预训练模型,覆盖图文预训练,文生图,跨模态视觉任务,实现图像编辑、图像描述、数据标注等多样功能。传送门📱模型库

🧩全流程开发体验

PaddleMIX 向开发者提供全流程多模态大模型开发体验,包括数据处理,模型开发,预训练,精调,推理部署。并针对不同任务提供了推荐模型最佳实践。传送门📱最佳实践

💡高性能分布式训推能力

PaddleMIX提供高性能分布式训练与推理能力,基于飞桨4D混合并行策略、算子融合等优化策略,显著提升多模态大模型训练推理性能。传送门📱benchmark

🔧特色模型与工具

PaddleMIX发布文档理解模型PP-DocBee,统一可控视频生成模型PP-VCtrl,特色数据处理工具箱DataCopilot,加速多模态大模型产业应用落地,传送门🏆特色模型工具

🔍安装

1. 克隆PaddleMIX仓库

git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX

2. 创建虚拟环境

conda create -n paddlemix python=3.10 -y
conda activate paddlemix

3. ‼️安装PaddlePaddle

方法 1: 一键安装(GPU/CPU推荐)

  • CUDA 11.x或12.3
  • PaddlePaddle 3.0.0b2
sh build_paddle_env.sh

方法 2: 手动安装

关于PaddlePaddle安装的详细教程请查看Installation

4. ‼️安装依赖

方法 1: 一键安装(推荐)

运行以下命令来自动安装所有必要的依赖:

sh build_env.sh

方法 2: 手动安装

# 安装 PaddleMIX
pip install -e .
# 安装 ppdiffusers
cd ppdiffusers
pip install -e .
cd ..

5. ‼️验证安装

sh check_env.sh

环境和依赖推荐版本:
- paddlepaddle: 3.0.0b2或develop版本
- paddlenlp: 3.0.0b2
- ppdiffusers: 0.29.0
- huggingface_hub: 0.23.0

6. 安装自定义算子(可选)

  • 部分模型需要安装自定义算子(FastLayerNorm、FusedLayerNorm),例如EVA-CLIP、DIT_LLAMA等。
  • 非CUDA环境(例如昇腾环境)则跳过
cd paddlemix/external_ops
python setup.py install

🔥教程

多模态大模型入门教程

快速开始

最佳实践

benchmark

多模态应用案例

多硬件使用

📱模型库

多模态理解 多模态生成 多模态大一统
  • 图文预训练
  • 开放世界视觉模型
  • 更多模态预训练模型
  • 文生图
  • 文生视频
  • 音频生成
  • 统一多模态模型
  • 更多模型能力,可参考模型能力矩阵

    🏆特色模型|工具

    💎PP-DocBee文档理解特色模型

    PaddleMIX提出了PP-DocBee,基于多模态大模型实现端到端的文档图像理解。它可以高效地应用在各类场景的文档理解、文档问答等,尤其是对中文的文档类理解的场景,达到了同参数量级别模型的SOTA水平。

    💎PP-VCtrl视频生成控制模型

    PaddleMIX提出了PP-VCtrl,一个统一的可控视频生成模型,实现了对各类控制信号的灵活接入和精确控制。可以高效地应用在各类视频生成场景中,尤其是人物动画、场景转换、视频编辑等需要精确控制的任务。

    💎多模态数据处理工具箱DataCopilot

    简介

    在真实的应用场景有大量使用专有数据微调多模态大模型来提升模型效果的需求,此过程中数据要素成为核心。基于此PaddleMIX提供了数据处理和分析的工具DataCopilot,使开发者可在PaddleMIX套件完成端到端的开发体验。传送门DataCopilot使用文档

    PP-InsCapTagger(Instance Capability Tagger) 是 DataCopilot 基于 PaddleMIX 实现的数据集能力标签模型,用于为多模态数据实例能力打标,通过实例能力分布对数据集进行优化,可以提高模型训练效率,为数据集分析和评价提供了一种高效的方案。 结合模型推理打标结果对LLaVA SFT数据集进行优化,可以提高LLaVA模型SFT阶段50%的训练效率。

    PP-InsCapTagger效果(点击展开)
    Model ScienceQA TextVQA VQAv2 GQA MMMU MME
    llava-1.5-7b (origin) 66.8 58.2 78.5 62 - -
    llava-1.5-7b (rerun) 69.01 57.6 79 62.95 36.89 1521
    323
    llava-1.5-7b (random 50%) 67.31 55.6 76.89 61.01 34.67 1421
    286
    llava-1.5-7b (our 50%) 70.24 (+2.93) 57.12 (+1.52) 78.32 (+1.43) 62.14 (+1.13) 37.11 (+2.44) 1476 (+55)
    338 (+52)

    传送门pp_inscaptagger使用文档

    🤔FAQ

    关于我们项目的一些常见问题解答,请参考FAQ。如果您的问题没有得到解答,请随时在Issues中提出

    ❤️致谢

    📝许可证书

    本项目的发布受Apache 2.0 license许可认证。

    📌社区交流

    • 微信扫描二维码并填写问卷,即可加入交流群与众多社区开发者以及官方团队深度交流。

    About

    Paddle Multimodal Integration and eXploration, supporting mainstream multi-modal tasks, including end-to-end large-scale multi-modal pretrain models and diffusion model toolbox. Equipped with high performance and flexibility.

    Resources

    License

    Citation

    Stars

    Watchers

    Forks

    Releases

    No releases published

    Packages

    No packages published

    Languages

    • Python 89.5%
    • Jupyter Notebook 8.5%
    • Shell 1.4%
    • Other 0.6%