RAG-Trained Security Model Project

Overview

This project implements a security-focused language model using Retrieval-Augmented Generation (RAG) techniques. The system is built around the Qwen model family and is specifically designed for security-related tasks and analysis.

Project Structure

rag_trained_security/
├── model_training/           # Model fine-tuning and training scripts
│   ├── finetune_qwen.py     # Main fine-tuning script for Qwen models
│   └── README.md            # Training-specific documentation
├── data_preparation/        # Data processing and preparation scripts
│   └── README.md           # Data preparation documentation
├── utils/                  # Utility functions and helper scripts
│   └── README.md          # Utilities documentation
└── docs/                  # Detailed documentation
    ├── training.md        # Training process documentation
    ├── data_format.md     # Data format specifications
    └── model_config.md    # Model configuration details

Features

Support for multiple Qwen model variants (7B, 14B, Chat)
Parameter-Efficient Fine-Tuning (PEFT) with LoRA
4-bit quantization for efficient training
Flexible data input format
Comprehensive logging and error handling

Supported Models

Qwen-7B Base
- Standard 7B parameter model
- Optimal for general security tasks
- Balanced performance and resource usage
Qwen-14B
- Larger 14B parameter model
- Enhanced reasoning capabilities
- Suitable for complex security analysis
Qwen-7B Chat
- Conversation-optimized 7B model
- Ideal for interactive security applications
- Better response formatting

Quick Start

Setup Environment
```
pip install -r requirements.txt
```
Configure Environment Variables
```
# Copy the example environment file
cp .env.example .env

# Edit .env with your configurations
nano .env
```
Key environment variables:
- CHROMA_DB_PATH: Path to ChromaDB storage
- CHROMA_COLLECTION_NAME: Name of the ChromaDB collection
- OLLAMA_BASE_URL: Ollama API endpoint
- MODEL_NAME: Name of the model to use
- MAX_QUERY_RESULTS: Number of results to return per query
- CHUNK_SIZE: Size of text chunks for processing
- CHUNK_OVERLAP: Overlap between text chunks

List Available Models

python model_training/finetune_qwen.py --list-models

Train Model

python model_training/finetune_qwen.py --model qwen-7b --training-file your_data.json

Documentation

Training Process: Detailed guide on model training
Data Format: Specifications for training data
Model Configuration: Model-specific settings

System Requirements

NVIDIA GPU with 24GB+ VRAM (RTX 4090 or better)
CUDA 12.4+
64GB+ System RAM
Python 3.10+

Training Data

The system expects training data in JSON format with specific fields for security-related content. See Data Format for details.

Model Configuration

Each model variant has specific configurations for:

LoRA parameters (rank, alpha, dropout)
Target modules for fine-tuning
Quantization settings
Padding and tokenization

Contributing

Fork the repository
Create a feature branch
Submit a pull request with detailed description

Contact

Cory Kujawski [email protected]

Acknowledgments

Qwen model team
PEFT library contributors
Hugging Face team

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
cba560ab-f18d-4372-8006-2b99f9e11848		cba560ab-f18d-4372-8006-2b99f9e11848
data_preparation		data_preparation
docs		docs
model_training		model_training
utils		utils
.env.example		.env.example
.gitignore		.gitignore
GPU_SETUP.md		GPU_SETUP.md
Modelfile		Modelfile
README.md		README.md
config.py		config.py
generate_training_data.py		generate_training_data.py
gpu_test.py		gpu_test.py
main.py		main.py
query.py		query.py
rag_chat.py		rag_chat.py
requirements.txt		requirements.txt
security_training_data.json		security_training_data.json
training_data.json		training_data.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RAG-Trained Security Model Project

Overview

Project Structure

Features

Supported Models

Quick Start

Documentation

System Requirements

Training Data

Model Configuration

Contributing

Contact

Acknowledgments

About

Releases

Packages

Languages

cory-kujawski-engineer/rag_trained_security

Folders and files

Latest commit

History

Repository files navigation

RAG-Trained Security Model Project

Overview

Project Structure

Features

Supported Models

Quick Start

Documentation

System Requirements

Training Data

Model Configuration

Contributing

Contact

Acknowledgments

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages