Instruction Dataset Generator Bot

A Python-based automated instruction dataset generator for fine-tuning Large Language Models. This bot generates high-quality instruction-answer pairs using an LLM API and outputs them to a CSV file.

Features

Automated Dataset Generation: Generates instruction-answer pairs for LLM fine-tuning
Configurable: Customize language, style, context, and generation parameters
Memory System: Tracks generated topics, intents, and patterns to avoid duplicates
CSV Output: Outputs data in a standard instruction tuning format
API Integration: Works with any OpenAI-compatible LLM API

Project Structure

instruction-bot/
├── main.py              # Main entry point
├── config.json          # Configuration file
├── requirements.txt     # Python dependencies
├── .env                 # Environment variables (API keys, etc.)
├── config/
│   ├── __init__.py
│   ├── config.py        # Configuration loading
│   └── memory.py        # Memory system and prompts
├── handler/
│   ├── __init__.py
│   ├── api_handler.py   # API communication
│   └── csv_handler.py   # CSV file operations
├── util/
│   └── json_cleaner.py  # JSON response cleaning
└── output/
    └── output.csv       # Generated dataset

Installation

Clone the repository
Install dependencies:
```
pip install -r requirements.txt
```

Configure environment variables in .env:

BASE_URL=https://your-api-endpoint.com/v1
API_KEY=your-api-key
MODEL_NAME=your-model-name

Configuration

Edit config.json to customize the generation:

Parameter	Description	Default
`language`	Language for generated content	"turksih"
`style`	Writing style guidelines	""
`context`	Context for instructions	""
`customInstruction`	Custom instructions	""
`loop`	Number of generation loops	3
`dataCountPerRequest`	Instructions per request	5

Example Configuration

{
    "language": "english",
    "style": "Formal and technical",
    "context": "Software development documentation",
    "customInstruction": "Focus on practical coding examples",
    "loop": 5,
    "dataCountPerRequest": 10
}

Environment Variables

Variable	Description
`BASE_URL`	API endpoint URL
`API_KEY`	API authentication key
`MODEL_NAME`	Name of the LLM model to use

Usage

Run the main script:

python main.py

The bot will:

Load configuration from config.json
Connect to the configured LLM API
Generate instruction-answer pairs in loops
Track generated content in memory to avoid duplicates
Save results to output/output.csv

Output Format

Generated data is saved to output/output.csv with the following columns:

Column	Description
`instruction`	The instruction/prompt
`input`	Additional input context (usually empty)
`output`	The expected response/answer

How It Works

Initialization: Loads configuration and initializes memory
Prompt Generation: Creates system and user prompts based on config
API Call: Sends prompts to the LLM API
Response Parsing: Cleans and parses JSON response
Memory Update: Updates memory with new topics, intents, patterns
CSV Export: Appends generated data to CSV file
Loop: Repeats for configured number of iterations

Key Components

`main.py`

Main entry point orchestrating the entire generation process.

`config/config.py`

Config class: Configuration data structure
load_config(): Loads configuration from JSON file

`config/memory.py`

Memory class: Tracks used topics, intents, patterns
configurated_system_prompt_as_message(): Creates system prompt
configurated_user_prompt_as_message(): Creates user prompt

`handler/api_handler.py`

Message class: Represents a chat message
Messages class: Container for multiple messages
get_ai_result(): Sends messages to API and returns response
check_config(): Validates environment variables

`handler/csv_handler.py`

ensure_csv_header(): Creates CSV with header if not exists
append_to_csv(): Appends generated data to CSV

`util/json_cleaner.py`

clean_json_response(): Cleans LLM JSON response, removes markdown formatting

Dependencies

certifi - SSL certificates
charset-normalizer - Character encoding
dotenv - Environment variable loading
idna - Internationalized domain names
load-dotenv - Alternative env loading
python-dotenv - Python .env support
requests - HTTP library
urllib3 - HTTP client

Memory System

The bot maintains a memory system to ensure dataset diversity:

used_topics: Track generated topics to avoid repetition
used_intents: Track question intents/types
used_patterns: Track structural patterns
notes: Additional notes for future generations

This ensures each generated instruction is unique and diverse.

API Compatibility

The bot works with any OpenAI-compatible API. Ensure your .env file points to a valid endpoint.

License

MIT License

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Instruction Dataset Generator Bot

Features

Project Structure

Installation

Configuration

Example Configuration

Environment Variables

Usage

Output Format

How It Works

Key Components

`main.py`

`config/config.py`

`config/memory.py`

`handler/api_handler.py`

`handler/csv_handler.py`

`util/json_cleaner.py`

Dependencies

Memory System

API Compatibility

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
config		config
handler		handler
output		output
util		util
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.json		config.json
main.py		main.py
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

Instruction Dataset Generator Bot

Features

Project Structure

Installation

Configuration

Example Configuration

Environment Variables

Usage

Output Format

How It Works

Key Components

Dependencies

Memory System

API Compatibility

License

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Uh oh!

Uh oh!

Languages