#

megatron-lm

Here are 11 public repositories matching this topic...

alibaba / Megatron-LLaMA

Best practice for training LLaMA models in Megatron-LM

pytorch llama distributed-training pretraining deepspeed megatron-lm llm

Updated Jan 2, 2024
Python

shreyansh26 / Annotated-ML-Papers

Annotations of the interesting ML papers I read

nlp machine-learning deep-learning transformers gpt research-paper bert gpt-2 xlnet annotated-paper megatron-lm papers-annotations

Updated Nov 10, 2024

openpsi-project / ReaLHF

Super-Efficient RLHF Training of LLMs with Parameter Reallocation

distributed-systems reinforcement-learning distributed-computing transformers large-scale-machine-learning deepspeed megatron-lm large-language-models llm reinforcement-learning-from-human-feedback llm-training llm-framework

Updated Dec 6, 2024
Python

xrsrke / pipegoose

Large scale 4D parallelism pre-training for 🤗 transformers in Mixture of Experts *(still work in progress)*

transformers moe data-parallelism distributed-optimizers model-parallelism megatron mixture-of-experts pipeline-parallelism huggingface-transformers megatron-lm tensor-parallelism large-scale-language-modeling 3d-parallelism zero-1 sequence-parallelism

Updated Dec 14, 2023
Python

feifeibear / Odysseus-Transformer

Odysseus: Playground of LLM Sequence Parallelism

pytorch megatron-lm llm

Updated Jun 17, 2024
Python

MoFHeka / LLaMA-Megatron

A LLaMA1/LLaMA12 Megatron implement.

pytorch llama megatron megatron-lm llm llm-training llama2

Updated Dec 13, 2023
Python

GoogleCloudPlatform / nvidia-nemo-on-gke

Training NVIDIA NeMo Megatron Large Language Model (LLM) using NeMo Framework on Google Kubernetes Engine

nvidia gke nvidia-gpu nvidia-nemo megatron-lm

Updated Nov 19, 2024
HCL

Beomi / megatronlm_dataset_autotokenizer

Megatron-LM/GPT-NeoX compatible Text Encoder with 🤗Transformers AutoTokenizer.

transformers gpt-neox tokenizers megatron-lm

Updated Nov 16, 2023
Python

SulRash / minLLMTrain

Minimal yet high performant code for pretraining llms. Attempts to implement some SOTA features. Implements training through: Deepspeed, Megatron-LM, and FSDP. WIP

huggingface pretraining deepspeed megatron-lm llm fsdp

Updated Feb 6, 2024
Python

janelu9 / flash-finetuning

Running Large Language Model easily.

vlm fine-tuning pretrain deepspeed megatron-lm llm llama3 qwen2-vl

Updated Dec 6, 2024
Jupyter Notebook

GJ98 / Megatron-LM

Megatron-LM implemented by PyTorch

nlp pytorch megatron-lm

Updated May 27, 2023
Python

Improve this page

Add a description, image, and links to the megatron-lm topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the megatron-lm topic, visit your repo's landing page and select "manage topics."