proxmox_mon.sh
· 38 KiB · Bash
Orginalformat
#!/bin/bash
# Надграден скрипт за цялостен мониторинг на Proxmox
# Включва допълнителни проверки и подобрени отчети
# Автор: Федя Серафиев
# Версия: 2.0
# Дата на последна промяна: 2025-07-24
# Конфигурация
SCRIPT_DIR="/opt/proxmox-monitor"
LOG_FILE="$SCRIPT_DIR/monitor.log"
STATUS_FILE="$SCRIPT_DIR/last_status.json"
CONFIG_FILE="$SCRIPT_DIR/config.conf"
BACKUP_DIR="$SCRIPT_DIR/backups"
MAX_LOG_FILES=30
MAX_BACKUP_FILES=10
# Стандартна конфигурация
DEFAULT_TELEGRAM_BOT_TOKEN=""
DEFAULT_TELEGRAM_CHAT_ID=""
DEFAULT_CHECK_INTERVAL=60
DEFAULT_CPU_THRESHOLD=80
DEFAULT_MEMORY_THRESHOLD=85
DEFAULT_DISK_THRESHOLD=90
DEFAULT_LOAD_THRESHOLD=5.0
DEFAULT_NETWORK_THRESHOLD=80
DEFAULT_TEMP_THRESHOLD=70
DEFAULT_BACKUP_ENABLED=true
DEFAULT_BACKUP_INTERVAL=86400 # 1 ден в секунди
# Цветове за изход
RED='\033[0;31m'
GREEN='\033[0;32m'
YELLOW='\033[1;33m'
BLUE='\033[0;34m'
MAGENTA='\033[0;35m'
CYAN='\033[0;36m'
NC='\033[0m' # Без цвят
# Инициализация на скрипта
init_script() {
echo -e "${BLUE}Инициализиране на Proxmox Monitor...${NC}"
# Създаване на директории
mkdir -p "$SCRIPT_DIR" "$BACKUP_DIR"
# Проверка за root потребител
if [[ $EUID -ne 0 ]]; then
echo -e "${RED}Грешка: Скриптът трябва да се изпълнява с root права${NC}"
return 1
fi
# Създаване на конфигурационен файл, ако не съществува
if [[ ! -f "$CONFIG_FILE" ]]; then
echo -e "${YELLOW}Създаване на нов конфигурационен файл...${NC}"
cat > "$CONFIG_FILE" << EOF
# Конфигурация на Proxmox Monitor
TELEGRAM_BOT_TOKEN="$DEFAULT_TELEGRAM_BOT_TOKEN"
TELEGRAM_CHAT_ID="$DEFAULT_TELEGRAM_CHAT_ID"
CHECK_INTERVAL=$DEFAULT_CHECK_INTERVAL
CPU_THRESHOLD=$DEFAULT_CPU_THRESHOLD
MEMORY_THRESHOLD=$DEFAULT_MEMORY_THRESHOLD
DISK_THRESHOLD=$DEFAULT_DISK_THRESHOLD
LOAD_THRESHOLD=$DEFAULT_LOAD_THRESHOLD
NETWORK_THRESHOLD=$DEFAULT_NETWORK_THRESHOLD
TEMP_THRESHOLD=$DEFAULT_TEMP_THRESHOLD
BACKUP_ENABLED=$DEFAULT_BACKUP_ENABLED
BACKUP_INTERVAL=$DEFAULT_BACKUP_INTERVAL
EOF
echo -e "${YELLOW}Създаден е конфигурационен файл в $CONFIG_FILE${NC}"
echo -e "${YELLOW}Моля, редактирайте конфигурационния файл с вашите данни${NC}"
return 1
fi
# Зареждане на конфигурацията
source "$CONFIG_FILE"
# Валидиране на конфигурацията
if [[ -z "$TELEGRAM_BOT_TOKEN" || -z "$TELEGRAM_CHAT_ID" ]]; then
echo -e "${RED}Грешка: Telegram данни не са конфигурирани${NC}"
return 1
fi
# Проверка за необходими пакети
local required_packages=("curl" "bc" "jq" "lm-sensors")
local missing_packages=()
for pkg in "${required_packages[@]}"; do
if ! dpkg -l | grep -q "^ii $pkg "; then
missing_packages+=("$pkg")
fi
done
if [[ ${#missing_packages[@]} -gt 0 ]]; then
echo -e "${YELLOW}Инсталиране на липсващи пакети: ${missing_packages[*]}${NC}"
apt-get update
apt-get install -y "${missing_packages[@]}"
fi
# Ротация на логове
manage_logs
return 0
}
# Управление на логове и архиви
manage_logs() {
# Ротация на логове
if [[ -f "$LOG_FILE" ]]; then
local log_size=$(du -k "$LOG_FILE" | cut -f1)
if [[ $log_size -gt 1024 ]]; then # 1MB
echo -e "${YELLOW}Ротация на логове...${NC}"
gzip -c "$LOG_FILE" > "$LOG_FILE.$(date +%Y%m%d%H%M%S).gz"
> "$LOG_FILE"
# Изтриване на стари логове
local old_logs=$(ls -t "$LOG_FILE".*.gz 2>/dev/null | tail -n +$((MAX_LOG_FILES+1)))
for old_log in $old_logs; do
rm -f "$old_log"
done
fi
fi
# Ротация на архиви
if [[ "$BACKUP_ENABLED" == true ]]; then
local old_backups=$(ls -t "$BACKUP_DIR"/status_*.json.gz 2>/dev/null | tail -n +$((MAX_BACKUP_FILES+1)))
for old_backup in $old_backups; do
rm -f "$old_backup"
done
fi
}
# Функция за логване
log_message() {
local level="$1"
local message="$2"
local timestamp=$(date '+%Y-%m-%d %H:%M:%S')
echo "$timestamp [$level] $message" >> "$LOG_FILE"
# Допълнително извеждане за грешки и предупреждения
case "$level" in
"ERROR")
echo -e "${RED}$timestamp [$level] $message${NC}" >&2
;;
"WARNING")
echo -e "${YELLOW}$timestamp [$level] $message${NC}" >&2
;;
"INFO")
echo -e "${BLUE}$timestamp [$level] $message${NC}" >&1
;;
*)
echo "$timestamp [$level] $message" >&1
;;
esac
}
# Изпращане на Telegram известие
send_telegram_notification() {
local message="$1"
local parse_mode="${2:-HTML}"
# Ограничаване на дължината на съобщението (Telegram има лимит ~4096 символа)
if [[ ${#message} -gt 4000 ]]; then
message="${message:0:4000}... [съкратено]"
fi
local response=$(curl -s -X POST "https://api.telegram.org/bot$TELEGRAM_BOT_TOKEN/sendMessage" \
-d "chat_id=$TELEGRAM_CHAT_ID" \
-d "text=$message" \
-d "parse_mode=$parse_mode" \
-d "disable_web_page_preview=true" 2>&1)
local result=$?
if [[ $result -eq 0 ]]; then
log_message "INFO" "Telegram известието е изпратено успешно"
else
log_message "ERROR" "Грешка при изпращане на Telegram известие: $response"
fi
return $result
}
# Вземане на системна информация
get_system_info() {
local hostname=$(hostname -f)
local uptime=$(uptime -p | sed 's/up //')
local kernel=$(uname -r)
local pve_version=$(pveversion | grep -oP "pve-manager\/\K[0-9.]+")
local cpu_model=$(grep "model name" /proc/cpuinfo | head -1 | cut -d: -f2 | sed 's/^[ \t]*//')
local cpu_cores=$(grep -c "^processor" /proc/cpuinfo)
echo "hostname:$hostname"
echo "uptime:$uptime"
echo "kernel:$kernel"
echo "pve_version:$pve_version"
echo "cpu_model:$cpu_model"
echo "cpu_cores:$cpu_cores"
}
# Вземане на CPU използване
get_cpu_usage() {
local cpu_usage=$(top -bn1 | grep "Cpu(s)" | sed "s/.*, *\([0-9.]*\)%* id.*/\1/" | awk '{print 100 - $1}')
echo "${cpu_usage%.*}"
}
# Вземане на памет
get_memory_usage() {
local mem_info=$(free -m | grep "Mem:")
local total=$(echo $mem_info | awk '{print $2}')
local used=$(echo $mem_info | awk '{print $3}')
local buff_cache=$(echo $mem_info | awk '{print $6}')
local available=$(free -m | grep "Mem:" | awk '{print $7}')
local percentage=$(( (total - available) * 100 / total ))
echo "$percentage"
}
# Вземане на дисково използване
get_disk_usage() {
local disk_usage=$(df -h / | tail -1 | awk '{print $5}' | sed 's/%//')
echo "$disk_usage"
}
# Вземане на средно натоварване
get_load_average() {
local load=$(uptime | awk -F'load average:' '{print $2}' | awk '{print $1}' | sed 's/,//')
echo "$load"
}
# Вземане на мрежова активност
get_network_usage() {
local interface=$(ip route | grep default | awk '{print $5}' | head -1)
if [[ -z "$interface" ]]; then
echo "0:0"
return
fi
local rx1=$(cat /sys/class/net/$interface/statistics/rx_bytes)
local tx1=$(cat /sys/class/net/$interface/statistics/tx_bytes)
sleep 1
local rx2=$(cat /sys/class/net/$interface/statistics/rx_bytes)
local tx2=$(cat /sys/class/net/$interface/statistics/tx_bytes)
local rx=$(( (rx2 - rx1) / 1024 ))
local tx=$(( (tx2 - tx1) / 1024 ))
echo "$rx:$tx"
}
# Вземане на температура
get_temperature() {
local temp=$(sensors | grep -E "Package|Tdie" | awk '{print $4}' | sed 's/+//;s/°C//')
echo "${temp%.*}"
}
# Проверка на ZFS пулове
check_zfs_pools() {
if ! command -v zpool &> /dev/null; then
echo "NOT_AVAILABLE"
return
fi
local pools=$(zpool list -H -o name,health 2>/dev/null)
if [[ -z "$pools" ]]; then
echo "NO_POOLS"
return
fi
local issues=()
while IFS= read -r line; do
local pool=$(echo "$line" | awk '{print $1}')
local health=$(echo "$line" | awk '{print $2}')
if [[ "$health" != "ONLINE" ]]; then
issues+=("$pool:$health")
fi
done <<< "$pools"
if [[ ${#issues[@]} -gt 0 ]]; then
echo "ISSUES:${issues[*]}"
else
echo "OK"
fi
}
# Проверка на Proxmox услуги
check_proxmox_services() {
local services=("pveproxy" "pvedaemon" "pvestatd" "pve-cluster" "corosync" "pve-ha-crm" "pve-ha-lrm" "pve-firewall")
local failed_services=()
for service in "${services[@]}"; do
if ! systemctl is-active --quiet "$service"; then
failed_services+=("$service")
fi
done
if [[ ${#failed_services[@]} -gt 0 ]]; then
echo "FAILED:${failed_services[*]}"
else
echo "OK"
fi
}
# Вземане на статус на контейнери/ВМ
get_container_status() {
local containers=()
local vms=()
# Вземане на LXC контейнери
while IFS= read -r line; do
if [[ -n "$line" ]]; then
local vmid=$(echo "$line" | awk '{print $1}')
local status=$(echo "$line" | awk '{print $2}')
local name=$(echo "$line" | awk '{print $3}')
local ip=$(pct config "$vmid" | grep "ip=" | cut -d'=' -f2 | cut -d'/' -f1 | head -1)
containers+=("$vmid:$status:$name:LXC:$ip")
fi
done < <(pct list | tail -n +2)
# Вземане на ВМ
while IFS= read -r line; do
if [[ -n "$line" ]]; then
local vmid=$(echo "$line" | awk '{print $1}')
local status=$(echo "$line" | awk '{print $3}')
local name=$(echo "$line" | awk '{print $2}')
local ip=$(qm guest exec "$vmid" -- ip route get 1 | awk '{print $7}' | head -1)
vms+=("$vmid:$status:$name:VM:$ip")
fi
done < <(qm list | tail -n +2)
# Комбиниране и връщане
for item in "${containers[@]}" "${vms[@]}"; do
echo "$item"
done
}
# Проверка на използване на хранилище
check_storage_usage() {
local storage_issues=()
while IFS= read -r line; do
if [[ -n "$line" ]]; then
local storage=$(echo "$line" | awk '{print $1}')
local usage=$(echo "$line" | awk '{print $6}' | sed 's/%//')
local total=$(echo "$line" | awk '{print $2}')
local avail=$(echo "$line" | awk '{print $4}')
if [[ "$usage" -gt "$DISK_THRESHOLD" ]]; then
storage_issues+=("$storage:$usage% (Налично: $avail от $total)")
fi
fi
done < <(pvesm status | tail -n +2)
if [[ ${#storage_issues[@]} -gt 0 ]]; then
echo "HIGH_USAGE:${storage_issues[*]}"
else
echo "OK"
fi
}
# Проверка на състоянието на батерията (за UPS)
check_ups_status() {
if ! command -v upsc &> /dev/null; then
echo "NOT_AVAILABLE"
return
fi
local ups_list=$(upsc -l 2>/dev/null)
if [[ -z "$ups_list" ]]; then
echo "NO_UPS"
return
fi
local ups_name=$(echo "$ups_list" | head -1)
local status=$(upsc "$ups_name" 2>/dev/null | grep -E "battery.charge:|ups.status:")
if [[ -z "$status" ]]; then
echo "ERROR"
return
fi
local battery_charge=$(echo "$status" | grep "battery.charge:" | cut -d' ' -f2)
local ups_status=$(echo "$status" | grep "ups.status:" | cut -d' ' -f2)
if [[ "$ups_status" != "OL" || "$battery_charge" -lt 90 ]]; then
echo "ISSUE:$ups_status:$battery_charge%"
else
echo "OK:$ups_status:$battery_charge%"
fi
}
# Проверка на състоянието на RAID
check_raid_status() {
if [[ -f "/proc/mdstat" ]]; then
local mdstat=$(grep -A1 "md" /proc/mdstat | tail -1)
if [[ "$mdstat" == *"UU"* ]]; then
echo "OK"
else
echo "DEGRADED:$mdstat"
fi
elif command -v megacli &> /dev/null; then
local raid_status=$(megacli -LDInfo -Lall -aAll | grep "State" | awk '{print $3}')
if [[ "$raid_status" == "Optimal" ]]; then
echo "OK"
else
echo "DEGRADED:$raid_status"
fi
else
echo "NOT_AVAILABLE"
fi
}
# Генериране на отчет за статус
generate_status_report() {
local report_type="$1" # ALERT, RECOVERY, SUMMARY, или DETAILED
local issues="$2"
local system_info=$(get_system_info)
local hostname=$(echo "$system_info" | grep "hostname:" | cut -d: -f2)
local uptime=$(echo "$system_info" | grep "uptime:" | cut -d: -f2-)
local pve_version=$(echo "$system_info" | grep "pve_version:" | cut -d: -f2-)
local cpu_model=$(echo "$system_info" | grep "cpu_model:" | cut -d: -f2-)
local cpu_cores=$(echo "$system_info" | grep "cpu_cores:" | cut -d: -f2-)
local cpu_usage=$(get_cpu_usage)
local memory_usage=$(get_memory_usage)
local disk_usage=$(get_disk_usage)
local load_avg=$(get_load_average)
local temperature=$(get_temperature)
local network_usage=$(get_network_usage)
local rx=$(echo "$network_usage" | cut -d: -f1)
local tx=$(echo "$network_usage" | cut -d: -f2)
local zfs_status=$(check_zfs_pools)
local raid_status=$(check_raid_status)
local ups_status=$(check_ups_status)
local current_time=$(date '+%Y-%m-%d %H:%M:%S')
case "$report_type" in
"ALERT")
local icon="🚨"
local status="АВАРИЯ"
;;
"RECOVERY")
local icon="✅"
local status="ВЪЗСТАНОВЯВАНЕ"
;;
"SUMMARY")
local icon="📊"
local status="ОБЗОР"
;;
"DETAILED")
local icon="🔍"
local status="ПОДРОБЕН"
;;
*)
local icon="ℹ️"
local status="ИНФО"
;;
esac
local message="$icon <b>Proxmox Monitor - $status</b> $icon
<b>🖥️ Системна информация:</b>
• Хост: <code>$hostname</code>
• Време: <code>$current_time</code>
• Uptime: <code>$uptime</code>
• Версия: <code>$pve_version</code>
• CPU: <code>$cpu_model</code> ($cpu_cores ядра)
<b>📊 Системни ресурси:</b>
• CPU: <code>$cpu_usage%</code> (Температура: <code>$temperature°C</code>)
• Памет: <code>$memory_usage%</code>
• Диск: <code>$disk_usage%</code>
• Натоварване: <code>$load_avg</code>
• Мрежа: ⬇️ <code>$rx KB/s</code> ⬆️ <code>$tx KB/s</code>"
# Добавяне на RAID статус
case "$raid_status" in
"OK")
message="$message
• RAID: <code>Нормално</code>"
;;
"DEGRADED"*)
local degraded_info=$(echo "$raid_status" | cut -d: -f2-)
message="$message
• RAID: <code>Деградиран ($degraded_info)</code>"
;;
*)
message="$message"
;;
esac
# Добавяне на ZFS статус
case "$zfs_status" in
"OK")
message="$message
• ZFS: <code>Нормално</code>"
;;
"ISSUES"*)
local zfs_issues=$(echo "$zfs_status" | cut -d: -f2- | tr '|' ', ')
message="$message
• ZFS: <code>Проблеми ($zfs_issues)</code>"
;;
*)
message="$message"
;;
esac
# Добавяне на UPS статус
case "$ups_status" in
"OK"*)
local ups_info=$(echo "$ups_status" | cut -d: -f2-)
message="$message
• UPS: <code>Нормално ($ups_info)</code>"
;;
"ISSUE"*)
local ups_info=$(echo "$ups_status" | cut -d: -f2-)
message="$message
• UPS: <code>Проблем ($ups_info)</code>"
;;
*)
message="$message"
;;
esac
# Добавяне на статус на контейнери
local container_status=$(get_container_status)
local running_count=0
local stopped_count=0
local problem_containers=()
while IFS= read -r line; do
if [[ -n "$line" ]]; then
local vmid=$(echo "$line" | cut -d: -f1)
local status=$(echo "$line" | cut -d: -f2)
local name=$(echo "$line" | cut -d: -f3)
local type=$(echo "$line" | cut -d: -f4)
local ip=$(echo "$line" | cut -d: -f5)
if [[ "$status" == "running" ]]; then
((running_count++))
else
((stopped_count++))
problem_containers+=("$type $vmid ($name) [$ip]: $status")
fi
fi
done <<< "$container_status"
message="$message
<b>🔧 Контейнери/ВМ:</b>
• Работят: <code>$running_count</code>
• Спряни: <code>$stopped_count</code>"
# Добавяне на проблеми, ако има
if [[ -n "$issues" ]]; then
message="$message
<b>⚠️ Открити проблеми:</b>
$issues"
fi
# Добавяне на детайли за спрени контейнери
if [[ ${#problem_containers[@]} -gt 0 ]]; then
message="$message
<b>🔴 Спрени контейнери/ВМ:</b>"
for container in "${problem_containers[@]}"; do
message="$message
• <code>$container</code>"
done
fi
# Добавяне на подробна информация за хранилища
if [[ "$report_type" == "DETAILED" ]]; then
message="$message
<b>💾 Хранилища:</b>"
while IFS= read -r line; do
if [[ -n "$line" ]]; then
local storage=$(echo "$line" | awk '{print $1}')
local type=$(echo "$line" | awk '{print $2}')
local status=$(echo "$line" | awk '{print $3}')
local total=$(echo "$line" | awk '{print $4}')
local used=$(echo "$line" | awk '{print $5}')
local avail=$(echo "$line" | awk '{print $6}')
message="$message
• <code>$storage</code> ($type): $status | Използвано: $used от $total | Свободно: $avail"
fi
done < <(pvesm status | tail -n +2)
fi
echo "$message"
}
# Проверка на здравето на системата
check_system_health() {
local issues=()
local current_status=()
# Проверка на CPU
local cpu_usage=$(get_cpu_usage)
if [[ "$cpu_usage" -gt "$CPU_THRESHOLD" ]]; then
issues+=("Високо CPU използване: ${cpu_usage}% (Лимит: ${CPU_THRESHOLD}%)")
fi
current_status+=("cpu:$cpu_usage")
# Проверка на памет
local memory_usage=$(get_memory_usage)
if [[ "$memory_usage" -gt "$MEMORY_THRESHOLD" ]]; then
issues+=("Високо използване на памет: ${memory_usage}% (Лимит: ${MEMORY_THRESHOLD}%)")
fi
current_status+=("memory:$memory_usage")
# Проверка на диск
local disk_usage=$(get_disk_usage)
if [[ "$disk_usage" -gt "$DISK_THRESHOLD" ]]; then
issues+=("Високо дисково използване: ${disk_usage}% (Лимит: ${DISK_THRESHOLD}%)")
fi
current_status+=("disk:$disk_usage")
# Проверка на натоварване
local load_avg=$(get_load_average)
if (( $(echo "$load_avg > $LOAD_THRESHOLD" | bc -l) )); then
issues+=("Високо средно натоварване: $load_avg (Лимит: $LOAD_THRESHOLD)")
fi
current_status+=("load:$load_avg")
# Проверка на температура
local temperature=$(get_temperature)
if [[ "$temperature" -gt "$TEMP_THRESHOLD" ]]; then
issues+=("Висока температура на CPU: ${temperature}°C (Лимит: ${TEMP_THRESHOLD}°C)")
fi
current_status+=("temp:$temperature")
# Проверка на мрежа
local network_usage=$(get_network_usage)
local rx=$(echo "$network_usage" | cut -d: -f1)
local tx=$(echo "$network_usage" | cut -d: -f2)
if [[ "$rx" -gt "$NETWORK_THRESHOLD" ]]; then
issues+=("Високо входящо мрежово натоварване: ${rx}KB/s (Лимит: ${NETWORK_THRESHOLD}KB/s)")
fi
if [[ "$tx" -gt "$NETWORK_THRESHOLD" ]]; then
issues+=("Високо изходящо мрежово натоварване: ${tx}KB/s (Лимит: ${NETWORK_THRESHOLD}KB/s)")
fi
current_status+=("network_rx:$rx")
current_status+=("network_tx:$tx")
# Проверка на Proxmox услуги
local service_status=$(check_proxmox_services)
if [[ "$service_status" != "OK" ]]; then
local failed_services=$(echo "$service_status" | cut -d: -f2 | tr '|' ', ')
issues+=("Неуспешни услуги: $failed_services")
fi
current_status+=("services:$service_status")
# Проверка на хранилище
local storage_status=$(check_storage_usage)
if [[ "$storage_status" != "OK" ]]; then
local storage_issues=$(echo "$storage_status" | cut -d: -f2 | tr '|' ', ')
issues+=("Проблеми с хранилище: $storage_issues")
fi
current_status+=("storage:$storage_status")
# Проверка на ZFS
local zfs_status=$(check_zfs_pools)
if [[ "$zfs_status" == "ISSUES"* ]]; then
local zfs_issues=$(echo "$zfs_status" | cut -d: -f2 | tr '|' ', ')
issues+=("Проблеми с ZFS: $zfs_issues")
fi
current_status+=("zfs:$zfs_status")
# Проверка на RAID
local raid_status=$(check_raid_status)
if [[ "$raid_status" == "DEGRADED"* ]]; then
local raid_issues=$(echo "$raid_status" | cut -d: -f2)
issues+=("Проблеми с RAID: $raid_issues")
fi
current_status+=("raid:$raid_status")
# Проверка на UPS
local ups_status=$(check_ups_status)
if [[ "$ups_status" == "ISSUE"* ]]; then
local ups_issues=$(echo "$ups_status" | cut -d: -f2-)
issues+=("Проблеми с UPS: $ups_issues")
fi
current_status+=("ups:$ups_status")
# Проверка на контейнери
local container_status=$(get_container_status)
local stopped_containers=()
while IFS= read -r line; do
if [[ -n "$line" ]]; then
local vmid=$(echo "$line" | cut -d: -f1)
local status=$(echo "$line" | cut -d: -f2)
local name=$(echo "$line" | cut -d: -f3)
local type=$(echo "$line" | cut -d: -f4)
if [[ "$status" != "running" ]]; then
stopped_containers+=("$type $vmid ($name)")
fi
fi
done <<< "$container_status"
if [[ ${#stopped_containers[@]} -gt 0 ]]; then
issues+=("Спряни контейнери: ${stopped_containers[*]}")
fi
current_status+=("containers:${#stopped_containers[@]}_stopped")
# Запазване на текущия статус
printf '%s\n' "${current_status[@]}" > "$STATUS_FILE"
# Архивиране на статуса
if [[ "$BACKUP_ENABLED" == true ]]; then
local last_backup=$(stat -c %Y "$STATUS_FILE" 2>/dev/null || echo 0)
local current_time=$(date +%s)
if (( current_time - last_backup > BACKUP_INTERVAL )); then
gzip -c "$STATUS_FILE" > "$BACKUP_DIR/status_$(date +%Y%m%d%H%M%S).json.gz"
fi
fi
# Връщане на проблеми
if [[ ${#issues[@]} -gt 0 ]]; then
printf '%s\n' "${issues[@]}"
fi
}
# Главна функция за мониторинг
monitor_system() {
if ! init_script; then
exit 1
fi
local issues=$(check_system_health)
local previous_issues=""
# Зареждане на предишен статус
if [[ -f "$STATUS_FILE.prev" ]]; then
previous_issues=$(cat "$STATUS_FILE.prev" 2>/dev/null || echo "")
fi
# Текущи проблеми като стринг
local current_issues_str=""
if [[ -n "$issues" ]]; then
current_issues_str=$(echo "$issues" | tr '\n' '|')
fi
# Проверка дали статуса е променен
if [[ "$current_issues_str" != "$previous_issues" ]]; then
if [[ -n "$issues" ]]; then
# Открити са нови проблеми
local formatted_issues=""
while IFS= read -r issue; do
formatted_issues="$formatted_issues• $issue\n"
done <<< "$issues"
local report=$(generate_status_report "ALERT" "$formatted_issues")
send_telegram_notification "$report"
log_message "ALERT" "Открити проблеми: $issues"
elif [[ -n "$previous_issues" ]]; then
# Проблемите са разрешени
local report=$(generate_status_report "RECOVERY" "")
send_telegram_notification "$report"
log_message "INFO" "Проблемите са разрешени"
fi
# Запазване на текущия статус като предишен
echo "$current_issues_str" > "$STATUS_FILE.prev"
fi
}
# Функция за инсталация
install_monitor() {
echo -e "${BLUE}Инсталиране на Proxmox Monitor...${NC}"
# Проверка за root потребител
if [[ $EUID -ne 0 ]]; then
echo -e "${RED}Грешка: Скриптът трябва да се изпълнява с root права${NC}"
exit 1
fi
# Инсталиране на зависимости
log_message "INFO" "Инсталиране на зависимости..."
apt-get update
apt-get install -y curl bc jq lm-sensors megacli snmp nut
# Инициализиране на скрипта
if ! init_script; then
echo -e "${RED}Инсталацията неуспешна. Моля, конфигурирайте скрипта.${NC}"
exit 1
fi
# Създаване на systemd услуга
log_message "INFO" "Създаване на systemd услуга..."
cat > /etc/systemd/system/proxmox-monitor.service << EOF
[Unit]
Description=Proxmox Comprehensive Monitor
After=network.target
[Service]
Type=simple
User=root
ExecStart=$0 daemon
Restart=always
RestartSec=10
Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"
[Install]
WantedBy=multi-user.target
EOF
# Създаване на systemd таймер
log_message "INFO" "Създаване на systemd таймер..."
cat > /etc/systemd/system/proxmox-monitor.timer << EOF
[Unit]
Description=Proxmox Monitor Timer
Requires=proxmox-monitor.service
[Timer]
OnBootSec=60
OnUnitActiveSec=${CHECK_INTERVAL}s
AccuracySec=1s
[Install]
WantedBy=timers.target
EOF
# Активиране и стартиране на услугите
log_message "INFO" "Активиране на услугите..."
systemctl daemon-reload
systemctl enable proxmox-monitor.timer
systemctl start proxmox-monitor.timer
# Проверка на състоянието
sleep 2
local timer_status=$(systemctl is-active proxmox-monitor.timer)
local service_status=$(systemctl is-active proxmox-monitor.service)
if [[ "$timer_status" == "active" && "$service_status" == "active" ]]; then
echo -e "${GREEN}✅ Proxmox Monitor е инсталиран и стартиран успешно!${NC}"
echo -e "${YELLOW}Конфигурационен файл: $CONFIG_FILE${NC}"
echo -e "${YELLOW}Лог файл: $LOG_FILE${NC}"
echo -e "${YELLOW}Статус: systemctl status proxmox-monitor.timer${NC}"
log_message "INFO" "Успешна инсталация на Proxmox Monitor"
else
echo -e "${RED}❌ Грешка при инсталацията${NC}"
echo -e "${YELLOW}Състояние на таймера: $timer_status${NC}"
echo -e "${YELLOW}Състояние на услугата: $service_status${NC}"
log_message "ERROR" "Грешка при инсталация. Състояние на таймера: $timer_status, услугата: $service_status"
exit 1
fi
}
# Показване на употреба
usage() {
echo "Употреба: $0 [команда]"
echo "Команди:"
echo " install - Инсталира и конфигурира монитора"
echo " daemon - Стартира като демон (използва се от systemd)"
echo " check - Извършва единична проверка"
echo " status - Показва текущия статус"
echo " summary - Изпраща обобщен отчет"
echo " detailed - Изпраща подробен отчет"
echo " test - Тества Telegram известието"
echo " config - Показва конфигурацията"
echo " logs - Показва последните логове"
echo " backup - Създава ръчно архивиране на статуса"
echo " help - Показва тази помощ"
exit 1
}
# Показване на текущия статус
show_status() {
if ! init_script; then
exit 1
fi
echo -e "${BLUE}=== Статус на Proxmox Monitor ===${NC}"
echo
local system_info=$(get_system_info)
echo "$system_info" | while IFS=: read -r key value; do
echo -e "${GREEN}$key:${NC} $value"
done
echo
echo -e "${BLUE}=== Системни ресурси ===${NC}"
echo -e "${GREEN}CPU използване:${NC} $(get_cpu_usage)%"
echo -e "${GREEN}Използване на памет:${NC} $(get_memory_usage)%"
echo -e "${GREEN}Дисково използване:${NC} $(get_disk_usage)%"
echo -e "${GREEN}Средно натоварване:${NC} $(get_load_average)"
echo -e "${GREEN}Температура на CPU:${NC} $(get_temperature)°C"
local network_usage=$(get_network_usage)
echo -e "${GREEN}Мрежова активност:${NC} ⬇️ $(echo "$network_usage" | cut -d: -f1) KB/s ⬆️ $(echo "$network_usage" | cut -d: -f2) KB/s"
echo
echo -e "${BLUE}=== Услуги ===${NC}"
local service_status=$(check_proxmox_services)
if [[ "$service_status" == "OK" ]]; then
echo -e "${GREEN}Всички Proxmox услуги работят${NC}"
else
echo -e "${RED}Неуспешни услуги: $(echo "$service_status" | cut -d: -f2)${NC}"
fi
echo
echo -e "${BLUE}=== ZFS ===${NC}"
local zfs_status=$(check_zfs_pools)
case "$zfs_status" in
"OK")
echo -e "${GREEN}Всички ZFS пулове са нормални${NC}"
;;
"ISSUES"*)
echo -e "${RED}Проблеми с ZFS: $(echo "$zfs_status" | cut -d: -f2)${NC}"
;;
"NO_POOLS")
echo -e "${YELLOW}Няма ZFS пулове${NC}"
;;
*)
echo -e "${YELLOW}ZFS статус: $zfs_status${NC}"
;;
esac
echo
echo -e "${BLUE}=== RAID ===${NC}"
local raid_status=$(check_raid_status)
case "$raid_status" in
"OK")
echo -e "${GREEN}RAID масивът е нормален${NC}"
;;
"DEGRADED"*)
echo -e "${RED}Проблеми с RAID: $(echo "$raid_status" | cut -d: -f2)${NC}"
;;
*)
echo -e "${YELLOW}RAID статус: $raid_status${NC}"
;;
esac
echo
echo -e "${BLUE}=== UPS ===${NC}"
local ups_status=$(check_ups_status)
case "$ups_status" in
"OK"*)
echo -e "${GREEN}UPS статус: $(echo "$ups_status" | cut -d: -f2-)${NC}"
;;
"ISSUE"*)
echo -e "${RED}Проблеми с UPS: $(echo "$ups_status" | cut -d: -f2-)${NC}"
;;
"NO_UPS")
echo -e "${YELLOW}Няма конфигуриран UPS${NC}"
;;
*)
echo -e "${YELLOW}UPS статус: $ups_status${NC}"
;;
esac
echo
echo -e "${BLUE}=== Контейнери/ВМ ===${NC}"
local container_status=$(get_container_status)
local running=0
local stopped=0
while IFS= read -r line; do
if [[ -n "$line" ]]; then
local vmid=$(echo "$line" | cut -d: -f1)
local status=$(echo "$line" | cut -d: -f2)
local name=$(echo "$line" | cut -d: -f3)
local type=$(echo "$line" | cut -d: -f4)
local ip=$(echo "$line" | cut -d: -f5)
if [[ "$status" == "running" ]]; then
((running++))
echo -e "${GREEN}✅ $type $vmid ($name) [$ip]: $status${NC}"
else
((stopped++))
echo -e "${RED}❌ $type $vmid ($name) [$ip]: $status${NC}"
fi
fi
done <<< "$container_status"
echo
echo -e "${BLUE}Обобщение: ${GREEN}$running работят${NC}, ${RED}$stopped спрени${NC}"
}
# Тестване на Telegram известие
test_telegram() {
if ! init_script; then
exit 1
fi
echo -e "${BLUE}Тестване на Telegram известие...${NC}"
local test_message="🧪 <b>Proxmox Monitor Тест</b>
Това е тестово съобщение от вашата Proxmox система за мониторинг.
<b>Система:</b> $(hostname)
<b>Време:</b> $(date)
<b>Статус:</b> ✅ Тестът е успешен
<b>📊 Системни ресурси:</b>
• CPU: <code>$(get_cpu_usage)%</code>
• Памет: <code>$(get_memory_usage)%</code>
• Диск: <code>$(get_disk_usage)%</code>
• Натоварване: <code>$(get_load_average)</code>"
if send_telegram_notification "$test_message"; then
echo -e "${GREEN}✅ Тестовото известие е изпратено успешно!${NC}"
log_message "INFO" "Успешен тест на Telegram известие"
else
echo -e "${RED}❌ Грешка при изпращане на тестово известие${NC}"
echo -e "${YELLOW}Моля, проверете вашата Telegram конфигурация${NC}"
log_message "ERROR" "Грешка при тест на Telegram известие"
fi
}
# Създаване на ръчно архивиране
create_backup() {
if ! init_script; then
exit 1
fi
echo -e "${BLUE}Създаване на архивиране на статуса...${NC}"
if [[ ! -f "$STATUS_FILE" ]]; then
echo -e "${YELLOW}Няма данни за статус за архивиране${NC}"
return
fi
local backup_file="$BACKUP_DIR/status_$(date +%Y%m%d%H%M%S).json.gz"
gzip -c "$STATUS_FILE" > "$backup_file"
if [[ $? -eq 0 ]]; then
echo -e "${GREEN}✅ Успешно архивиране: $backup_file${NC}"
log_message "INFO" "Успешно ръчно архивиране: $backup_file"
else
echo -e "${RED}❌ Грешка при архивиране${NC}"
log_message "ERROR" "Грешка при ръчно архивиране"
fi
}
# Главно изпълнение
case "${1:-}" in
"install")
install_monitor
;;
"daemon")
while true; do
monitor_system
sleep "$CHECK_INTERVAL"
done
;;
"check")
monitor_system
;;
"status")
show_status
;;
"summary")
if init_script; then
report=$(generate_status_report "SUMMARY" "")
send_telegram_notification "$report"
echo -e "${GREEN}Обобщен отчет изпратен${NC}"
fi
;;
"detailed")
if init_script; then
report=$(generate_status_report "DETAILED" "")
send_telegram_notification "$report"
echo -e "${GREEN}Подробен отчет изпратен${NC}"
fi
;;
"test")
test_telegram
;;
"config")
if [[ -f "$CONFIG_FILE" ]]; then
echo -e "${BLUE}=== Конфигурация ===${NC}"
cat "$CONFIG_FILE"
else
echo -e "${RED}Конфигурационен файл не е намерен${NC}"
fi
;;
"logs")
if [[ -f "$LOG_FILE" ]]; then
echo -e "${BLUE}=== Последни 20 лога ===${NC}"
tail -20 "$LOG_FILE"
echo -e "\n${BLUE}=== Обобщение на грешките ===${NC}"
grep -i "error" "$LOG_FILE" | tail -10
else
echo -e "${YELLOW}Няма намерени логове${NC}"
fi
;;
"backup")
create_backup
;;
"help"|*)
usage
;;
esac
| 1 | #!/bin/bash |
| 2 | |
| 3 | # Надграден скрипт за цялостен мониторинг на Proxmox |
| 4 | # Включва допълнителни проверки и подобрени отчети |
| 5 | # Автор: Федя Серафиев |
| 6 | # Версия: 2.0 |
| 7 | # Дата на последна промяна: 2025-07-24 |
| 8 | |
| 9 | # Конфигурация |
| 10 | SCRIPT_DIR="/opt/proxmox-monitor" |
| 11 | LOG_FILE="$SCRIPT_DIR/monitor.log" |
| 12 | STATUS_FILE="$SCRIPT_DIR/last_status.json" |
| 13 | CONFIG_FILE="$SCRIPT_DIR/config.conf" |
| 14 | BACKUP_DIR="$SCRIPT_DIR/backups" |
| 15 | MAX_LOG_FILES=30 |
| 16 | MAX_BACKUP_FILES=10 |
| 17 | |
| 18 | # Стандартна конфигурация |
| 19 | DEFAULT_TELEGRAM_BOT_TOKEN="" |
| 20 | DEFAULT_TELEGRAM_CHAT_ID="" |
| 21 | DEFAULT_CHECK_INTERVAL=60 |
| 22 | DEFAULT_CPU_THRESHOLD=80 |
| 23 | DEFAULT_MEMORY_THRESHOLD=85 |
| 24 | DEFAULT_DISK_THRESHOLD=90 |
| 25 | DEFAULT_LOAD_THRESHOLD=5.0 |
| 26 | DEFAULT_NETWORK_THRESHOLD=80 |
| 27 | DEFAULT_TEMP_THRESHOLD=70 |
| 28 | DEFAULT_BACKUP_ENABLED=true |
| 29 | DEFAULT_BACKUP_INTERVAL=86400 # 1 ден в секунди |
| 30 | |
| 31 | # Цветове за изход |
| 32 | RED='\033[0;31m' |
| 33 | GREEN='\033[0;32m' |
| 34 | YELLOW='\033[1;33m' |
| 35 | BLUE='\033[0;34m' |
| 36 | MAGENTA='\033[0;35m' |
| 37 | CYAN='\033[0;36m' |
| 38 | NC='\033[0m' # Без цвят |
| 39 | |
| 40 | # Инициализация на скрипта |
| 41 | init_script() { |
| 42 | echo -e "${BLUE}Инициализиране на Proxmox Monitor...${NC}" |
| 43 | |
| 44 | # Създаване на директории |
| 45 | mkdir -p "$SCRIPT_DIR" "$BACKUP_DIR" |
| 46 | |
| 47 | # Проверка за root потребител |
| 48 | if [[ $EUID -ne 0 ]]; then |
| 49 | echo -e "${RED}Грешка: Скриптът трябва да се изпълнява с root права${NC}" |
| 50 | return 1 |
| 51 | fi |
| 52 | |
| 53 | # Създаване на конфигурационен файл, ако не съществува |
| 54 | if [[ ! -f "$CONFIG_FILE" ]]; then |
| 55 | echo -e "${YELLOW}Създаване на нов конфигурационен файл...${NC}" |
| 56 | cat > "$CONFIG_FILE" << EOF |
| 57 | # Конфигурация на Proxmox Monitor |
| 58 | TELEGRAM_BOT_TOKEN="$DEFAULT_TELEGRAM_BOT_TOKEN" |
| 59 | TELEGRAM_CHAT_ID="$DEFAULT_TELEGRAM_CHAT_ID" |
| 60 | CHECK_INTERVAL=$DEFAULT_CHECK_INTERVAL |
| 61 | CPU_THRESHOLD=$DEFAULT_CPU_THRESHOLD |
| 62 | MEMORY_THRESHOLD=$DEFAULT_MEMORY_THRESHOLD |
| 63 | DISK_THRESHOLD=$DEFAULT_DISK_THRESHOLD |
| 64 | LOAD_THRESHOLD=$DEFAULT_LOAD_THRESHOLD |
| 65 | NETWORK_THRESHOLD=$DEFAULT_NETWORK_THRESHOLD |
| 66 | TEMP_THRESHOLD=$DEFAULT_TEMP_THRESHOLD |
| 67 | BACKUP_ENABLED=$DEFAULT_BACKUP_ENABLED |
| 68 | BACKUP_INTERVAL=$DEFAULT_BACKUP_INTERVAL |
| 69 | EOF |
| 70 | echo -e "${YELLOW}Създаден е конфигурационен файл в $CONFIG_FILE${NC}" |
| 71 | echo -e "${YELLOW}Моля, редактирайте конфигурационния файл с вашите данни${NC}" |
| 72 | return 1 |
| 73 | fi |
| 74 | |
| 75 | # Зареждане на конфигурацията |
| 76 | source "$CONFIG_FILE" |
| 77 | |
| 78 | # Валидиране на конфигурацията |
| 79 | if [[ -z "$TELEGRAM_BOT_TOKEN" || -z "$TELEGRAM_CHAT_ID" ]]; then |
| 80 | echo -e "${RED}Грешка: Telegram данни не са конфигурирани${NC}" |
| 81 | return 1 |
| 82 | fi |
| 83 | |
| 84 | # Проверка за необходими пакети |
| 85 | local required_packages=("curl" "bc" "jq" "lm-sensors") |
| 86 | local missing_packages=() |
| 87 | |
| 88 | for pkg in "${required_packages[@]}"; do |
| 89 | if ! dpkg -l | grep -q "^ii $pkg "; then |
| 90 | missing_packages+=("$pkg") |
| 91 | fi |
| 92 | done |
| 93 | |
| 94 | if [[ ${#missing_packages[@]} -gt 0 ]]; then |
| 95 | echo -e "${YELLOW}Инсталиране на липсващи пакети: ${missing_packages[*]}${NC}" |
| 96 | apt-get update |
| 97 | apt-get install -y "${missing_packages[@]}" |
| 98 | fi |
| 99 | |
| 100 | # Ротация на логове |
| 101 | manage_logs |
| 102 | |
| 103 | return 0 |
| 104 | } |
| 105 | |
| 106 | # Управление на логове и архиви |
| 107 | manage_logs() { |
| 108 | # Ротация на логове |
| 109 | if [[ -f "$LOG_FILE" ]]; then |
| 110 | local log_size=$(du -k "$LOG_FILE" | cut -f1) |
| 111 | if [[ $log_size -gt 1024 ]]; then # 1MB |
| 112 | echo -e "${YELLOW}Ротация на логове...${NC}" |
| 113 | gzip -c "$LOG_FILE" > "$LOG_FILE.$(date +%Y%m%d%H%M%S).gz" |
| 114 | > "$LOG_FILE" |
| 115 | |
| 116 | # Изтриване на стари логове |
| 117 | local old_logs=$(ls -t "$LOG_FILE".*.gz 2>/dev/null | tail -n +$((MAX_LOG_FILES+1))) |
| 118 | for old_log in $old_logs; do |
| 119 | rm -f "$old_log" |
| 120 | done |
| 121 | fi |
| 122 | fi |
| 123 | |
| 124 | # Ротация на архиви |
| 125 | if [[ "$BACKUP_ENABLED" == true ]]; then |
| 126 | local old_backups=$(ls -t "$BACKUP_DIR"/status_*.json.gz 2>/dev/null | tail -n +$((MAX_BACKUP_FILES+1))) |
| 127 | for old_backup in $old_backups; do |
| 128 | rm -f "$old_backup" |
| 129 | done |
| 130 | fi |
| 131 | } |
| 132 | |
| 133 | # Функция за логване |
| 134 | log_message() { |
| 135 | local level="$1" |
| 136 | local message="$2" |
| 137 | local timestamp=$(date '+%Y-%m-%d %H:%M:%S') |
| 138 | |
| 139 | echo "$timestamp [$level] $message" >> "$LOG_FILE" |
| 140 | |
| 141 | # Допълнително извеждане за грешки и предупреждения |
| 142 | case "$level" in |
| 143 | "ERROR") |
| 144 | echo -e "${RED}$timestamp [$level] $message${NC}" >&2 |
| 145 | ;; |
| 146 | "WARNING") |
| 147 | echo -e "${YELLOW}$timestamp [$level] $message${NC}" >&2 |
| 148 | ;; |
| 149 | "INFO") |
| 150 | echo -e "${BLUE}$timestamp [$level] $message${NC}" >&1 |
| 151 | ;; |
| 152 | *) |
| 153 | echo "$timestamp [$level] $message" >&1 |
| 154 | ;; |
| 155 | esac |
| 156 | } |
| 157 | |
| 158 | # Изпращане на Telegram известие |
| 159 | send_telegram_notification() { |
| 160 | local message="$1" |
| 161 | local parse_mode="${2:-HTML}" |
| 162 | |
| 163 | # Ограничаване на дължината на съобщението (Telegram има лимит ~4096 символа) |
| 164 | if [[ ${#message} -gt 4000 ]]; then |
| 165 | message="${message:0:4000}... [съкратено]" |
| 166 | fi |
| 167 | |
| 168 | local response=$(curl -s -X POST "https://api.telegram.org/bot$TELEGRAM_BOT_TOKEN/sendMessage" \ |
| 169 | -d "chat_id=$TELEGRAM_CHAT_ID" \ |
| 170 | -d "text=$message" \ |
| 171 | -d "parse_mode=$parse_mode" \ |
| 172 | -d "disable_web_page_preview=true" 2>&1) |
| 173 | |
| 174 | local result=$? |
| 175 | if [[ $result -eq 0 ]]; then |
| 176 | log_message "INFO" "Telegram известието е изпратено успешно" |
| 177 | else |
| 178 | log_message "ERROR" "Грешка при изпращане на Telegram известие: $response" |
| 179 | fi |
| 180 | return $result |
| 181 | } |
| 182 | |
| 183 | # Вземане на системна информация |
| 184 | get_system_info() { |
| 185 | local hostname=$(hostname -f) |
| 186 | local uptime=$(uptime -p | sed 's/up //') |
| 187 | local kernel=$(uname -r) |
| 188 | local pve_version=$(pveversion | grep -oP "pve-manager\/\K[0-9.]+") |
| 189 | local cpu_model=$(grep "model name" /proc/cpuinfo | head -1 | cut -d: -f2 | sed 's/^[ \t]*//') |
| 190 | local cpu_cores=$(grep -c "^processor" /proc/cpuinfo) |
| 191 | |
| 192 | echo "hostname:$hostname" |
| 193 | echo "uptime:$uptime" |
| 194 | echo "kernel:$kernel" |
| 195 | echo "pve_version:$pve_version" |
| 196 | echo "cpu_model:$cpu_model" |
| 197 | echo "cpu_cores:$cpu_cores" |
| 198 | } |
| 199 | |
| 200 | # Вземане на CPU използване |
| 201 | get_cpu_usage() { |
| 202 | local cpu_usage=$(top -bn1 | grep "Cpu(s)" | sed "s/.*, *\([0-9.]*\)%* id.*/\1/" | awk '{print 100 - $1}') |
| 203 | echo "${cpu_usage%.*}" |
| 204 | } |
| 205 | |
| 206 | # Вземане на памет |
| 207 | get_memory_usage() { |
| 208 | local mem_info=$(free -m | grep "Mem:") |
| 209 | local total=$(echo $mem_info | awk '{print $2}') |
| 210 | local used=$(echo $mem_info | awk '{print $3}') |
| 211 | local buff_cache=$(echo $mem_info | awk '{print $6}') |
| 212 | local available=$(free -m | grep "Mem:" | awk '{print $7}') |
| 213 | local percentage=$(( (total - available) * 100 / total )) |
| 214 | echo "$percentage" |
| 215 | } |
| 216 | |
| 217 | # Вземане на дисково използване |
| 218 | get_disk_usage() { |
| 219 | local disk_usage=$(df -h / | tail -1 | awk '{print $5}' | sed 's/%//') |
| 220 | echo "$disk_usage" |
| 221 | } |
| 222 | |
| 223 | # Вземане на средно натоварване |
| 224 | get_load_average() { |
| 225 | local load=$(uptime | awk -F'load average:' '{print $2}' | awk '{print $1}' | sed 's/,//') |
| 226 | echo "$load" |
| 227 | } |
| 228 | |
| 229 | # Вземане на мрежова активност |
| 230 | get_network_usage() { |
| 231 | local interface=$(ip route | grep default | awk '{print $5}' | head -1) |
| 232 | if [[ -z "$interface" ]]; then |
| 233 | echo "0:0" |
| 234 | return |
| 235 | fi |
| 236 | |
| 237 | local rx1=$(cat /sys/class/net/$interface/statistics/rx_bytes) |
| 238 | local tx1=$(cat /sys/class/net/$interface/statistics/tx_bytes) |
| 239 | sleep 1 |
| 240 | local rx2=$(cat /sys/class/net/$interface/statistics/rx_bytes) |
| 241 | local tx2=$(cat /sys/class/net/$interface/statistics/tx_bytes) |
| 242 | |
| 243 | local rx=$(( (rx2 - rx1) / 1024 )) |
| 244 | local tx=$(( (tx2 - tx1) / 1024 )) |
| 245 | |
| 246 | echo "$rx:$tx" |
| 247 | } |
| 248 | |
| 249 | # Вземане на температура |
| 250 | get_temperature() { |
| 251 | local temp=$(sensors | grep -E "Package|Tdie" | awk '{print $4}' | sed 's/+//;s/°C//') |
| 252 | echo "${temp%.*}" |
| 253 | } |
| 254 | |
| 255 | # Проверка на ZFS пулове |
| 256 | check_zfs_pools() { |
| 257 | if ! command -v zpool &> /dev/null; then |
| 258 | echo "NOT_AVAILABLE" |
| 259 | return |
| 260 | fi |
| 261 | |
| 262 | local pools=$(zpool list -H -o name,health 2>/dev/null) |
| 263 | if [[ -z "$pools" ]]; then |
| 264 | echo "NO_POOLS" |
| 265 | return |
| 266 | fi |
| 267 | |
| 268 | local issues=() |
| 269 | while IFS= read -r line; do |
| 270 | local pool=$(echo "$line" | awk '{print $1}') |
| 271 | local health=$(echo "$line" | awk '{print $2}') |
| 272 | |
| 273 | if [[ "$health" != "ONLINE" ]]; then |
| 274 | issues+=("$pool:$health") |
| 275 | fi |
| 276 | done <<< "$pools" |
| 277 | |
| 278 | if [[ ${#issues[@]} -gt 0 ]]; then |
| 279 | echo "ISSUES:${issues[*]}" |
| 280 | else |
| 281 | echo "OK" |
| 282 | fi |
| 283 | } |
| 284 | |
| 285 | # Проверка на Proxmox услуги |
| 286 | check_proxmox_services() { |
| 287 | local services=("pveproxy" "pvedaemon" "pvestatd" "pve-cluster" "corosync" "pve-ha-crm" "pve-ha-lrm" "pve-firewall") |
| 288 | local failed_services=() |
| 289 | |
| 290 | for service in "${services[@]}"; do |
| 291 | if ! systemctl is-active --quiet "$service"; then |
| 292 | failed_services+=("$service") |
| 293 | fi |
| 294 | done |
| 295 | |
| 296 | if [[ ${#failed_services[@]} -gt 0 ]]; then |
| 297 | echo "FAILED:${failed_services[*]}" |
| 298 | else |
| 299 | echo "OK" |
| 300 | fi |
| 301 | } |
| 302 | |
| 303 | # Вземане на статус на контейнери/ВМ |
| 304 | get_container_status() { |
| 305 | local containers=() |
| 306 | local vms=() |
| 307 | |
| 308 | # Вземане на LXC контейнери |
| 309 | while IFS= read -r line; do |
| 310 | if [[ -n "$line" ]]; then |
| 311 | local vmid=$(echo "$line" | awk '{print $1}') |
| 312 | local status=$(echo "$line" | awk '{print $2}') |
| 313 | local name=$(echo "$line" | awk '{print $3}') |
| 314 | local ip=$(pct config "$vmid" | grep "ip=" | cut -d'=' -f2 | cut -d'/' -f1 | head -1) |
| 315 | containers+=("$vmid:$status:$name:LXC:$ip") |
| 316 | fi |
| 317 | done < <(pct list | tail -n +2) |
| 318 | |
| 319 | # Вземане на ВМ |
| 320 | while IFS= read -r line; do |
| 321 | if [[ -n "$line" ]]; then |
| 322 | local vmid=$(echo "$line" | awk '{print $1}') |
| 323 | local status=$(echo "$line" | awk '{print $3}') |
| 324 | local name=$(echo "$line" | awk '{print $2}') |
| 325 | local ip=$(qm guest exec "$vmid" -- ip route get 1 | awk '{print $7}' | head -1) |
| 326 | vms+=("$vmid:$status:$name:VM:$ip") |
| 327 | fi |
| 328 | done < <(qm list | tail -n +2) |
| 329 | |
| 330 | # Комбиниране и връщане |
| 331 | for item in "${containers[@]}" "${vms[@]}"; do |
| 332 | echo "$item" |
| 333 | done |
| 334 | } |
| 335 | |
| 336 | # Проверка на използване на хранилище |
| 337 | check_storage_usage() { |
| 338 | local storage_issues=() |
| 339 | |
| 340 | while IFS= read -r line; do |
| 341 | if [[ -n "$line" ]]; then |
| 342 | local storage=$(echo "$line" | awk '{print $1}') |
| 343 | local usage=$(echo "$line" | awk '{print $6}' | sed 's/%//') |
| 344 | local total=$(echo "$line" | awk '{print $2}') |
| 345 | local avail=$(echo "$line" | awk '{print $4}') |
| 346 | |
| 347 | if [[ "$usage" -gt "$DISK_THRESHOLD" ]]; then |
| 348 | storage_issues+=("$storage:$usage% (Налично: $avail от $total)") |
| 349 | fi |
| 350 | fi |
| 351 | done < <(pvesm status | tail -n +2) |
| 352 | |
| 353 | if [[ ${#storage_issues[@]} -gt 0 ]]; then |
| 354 | echo "HIGH_USAGE:${storage_issues[*]}" |
| 355 | else |
| 356 | echo "OK" |
| 357 | fi |
| 358 | } |
| 359 | |
| 360 | # Проверка на състоянието на батерията (за UPS) |
| 361 | check_ups_status() { |
| 362 | if ! command -v upsc &> /dev/null; then |
| 363 | echo "NOT_AVAILABLE" |
| 364 | return |
| 365 | fi |
| 366 | |
| 367 | local ups_list=$(upsc -l 2>/dev/null) |
| 368 | if [[ -z "$ups_list" ]]; then |
| 369 | echo "NO_UPS" |
| 370 | return |
| 371 | fi |
| 372 | |
| 373 | local ups_name=$(echo "$ups_list" | head -1) |
| 374 | local status=$(upsc "$ups_name" 2>/dev/null | grep -E "battery.charge:|ups.status:") |
| 375 | |
| 376 | if [[ -z "$status" ]]; then |
| 377 | echo "ERROR" |
| 378 | return |
| 379 | fi |
| 380 | |
| 381 | local battery_charge=$(echo "$status" | grep "battery.charge:" | cut -d' ' -f2) |
| 382 | local ups_status=$(echo "$status" | grep "ups.status:" | cut -d' ' -f2) |
| 383 | |
| 384 | if [[ "$ups_status" != "OL" || "$battery_charge" -lt 90 ]]; then |
| 385 | echo "ISSUE:$ups_status:$battery_charge%" |
| 386 | else |
| 387 | echo "OK:$ups_status:$battery_charge%" |
| 388 | fi |
| 389 | } |
| 390 | |
| 391 | # Проверка на състоянието на RAID |
| 392 | check_raid_status() { |
| 393 | if [[ -f "/proc/mdstat" ]]; then |
| 394 | local mdstat=$(grep -A1 "md" /proc/mdstat | tail -1) |
| 395 | if [[ "$mdstat" == *"UU"* ]]; then |
| 396 | echo "OK" |
| 397 | else |
| 398 | echo "DEGRADED:$mdstat" |
| 399 | fi |
| 400 | elif command -v megacli &> /dev/null; then |
| 401 | local raid_status=$(megacli -LDInfo -Lall -aAll | grep "State" | awk '{print $3}') |
| 402 | if [[ "$raid_status" == "Optimal" ]]; then |
| 403 | echo "OK" |
| 404 | else |
| 405 | echo "DEGRADED:$raid_status" |
| 406 | fi |
| 407 | else |
| 408 | echo "NOT_AVAILABLE" |
| 409 | fi |
| 410 | } |
| 411 | |
| 412 | # Генериране на отчет за статус |
| 413 | generate_status_report() { |
| 414 | local report_type="$1" # ALERT, RECOVERY, SUMMARY, или DETAILED |
| 415 | local issues="$2" |
| 416 | |
| 417 | local system_info=$(get_system_info) |
| 418 | local hostname=$(echo "$system_info" | grep "hostname:" | cut -d: -f2) |
| 419 | local uptime=$(echo "$system_info" | grep "uptime:" | cut -d: -f2-) |
| 420 | local pve_version=$(echo "$system_info" | grep "pve_version:" | cut -d: -f2-) |
| 421 | local cpu_model=$(echo "$system_info" | grep "cpu_model:" | cut -d: -f2-) |
| 422 | local cpu_cores=$(echo "$system_info" | grep "cpu_cores:" | cut -d: -f2-) |
| 423 | |
| 424 | local cpu_usage=$(get_cpu_usage) |
| 425 | local memory_usage=$(get_memory_usage) |
| 426 | local disk_usage=$(get_disk_usage) |
| 427 | local load_avg=$(get_load_average) |
| 428 | local temperature=$(get_temperature) |
| 429 | local network_usage=$(get_network_usage) |
| 430 | local rx=$(echo "$network_usage" | cut -d: -f1) |
| 431 | local tx=$(echo "$network_usage" | cut -d: -f2) |
| 432 | local zfs_status=$(check_zfs_pools) |
| 433 | local raid_status=$(check_raid_status) |
| 434 | local ups_status=$(check_ups_status) |
| 435 | |
| 436 | local current_time=$(date '+%Y-%m-%d %H:%M:%S') |
| 437 | |
| 438 | case "$report_type" in |
| 439 | "ALERT") |
| 440 | local icon="🚨" |
| 441 | local status="АВАРИЯ" |
| 442 | ;; |
| 443 | "RECOVERY") |
| 444 | local icon="✅" |
| 445 | local status="ВЪЗСТАНОВЯВАНЕ" |
| 446 | ;; |
| 447 | "SUMMARY") |
| 448 | local icon="📊" |
| 449 | local status="ОБЗОР" |
| 450 | ;; |
| 451 | "DETAILED") |
| 452 | local icon="🔍" |
| 453 | local status="ПОДРОБЕН" |
| 454 | ;; |
| 455 | *) |
| 456 | local icon="ℹ️" |
| 457 | local status="ИНФО" |
| 458 | ;; |
| 459 | esac |
| 460 | |
| 461 | local message="$icon <b>Proxmox Monitor - $status</b> $icon |
| 462 | |
| 463 | <b>🖥️ Системна информация:</b> |
| 464 | • Хост: <code>$hostname</code> |
| 465 | • Време: <code>$current_time</code> |
| 466 | • Uptime: <code>$uptime</code> |
| 467 | • Версия: <code>$pve_version</code> |
| 468 | • CPU: <code>$cpu_model</code> ($cpu_cores ядра) |
| 469 | |
| 470 | <b>📊 Системни ресурси:</b> |
| 471 | • CPU: <code>$cpu_usage%</code> (Температура: <code>$temperature°C</code>) |
| 472 | • Памет: <code>$memory_usage%</code> |
| 473 | • Диск: <code>$disk_usage%</code> |
| 474 | • Натоварване: <code>$load_avg</code> |
| 475 | • Мрежа: ⬇️ <code>$rx KB/s</code> ⬆️ <code>$tx KB/s</code>" |
| 476 | |
| 477 | # Добавяне на RAID статус |
| 478 | case "$raid_status" in |
| 479 | "OK") |
| 480 | message="$message |
| 481 | • RAID: <code>Нормално</code>" |
| 482 | ;; |
| 483 | "DEGRADED"*) |
| 484 | local degraded_info=$(echo "$raid_status" | cut -d: -f2-) |
| 485 | message="$message |
| 486 | • RAID: <code>Деградиран ($degraded_info)</code>" |
| 487 | ;; |
| 488 | *) |
| 489 | message="$message" |
| 490 | ;; |
| 491 | esac |
| 492 | |
| 493 | # Добавяне на ZFS статус |
| 494 | case "$zfs_status" in |
| 495 | "OK") |
| 496 | message="$message |
| 497 | • ZFS: <code>Нормално</code>" |
| 498 | ;; |
| 499 | "ISSUES"*) |
| 500 | local zfs_issues=$(echo "$zfs_status" | cut -d: -f2- | tr '|' ', ') |
| 501 | message="$message |
| 502 | • ZFS: <code>Проблеми ($zfs_issues)</code>" |
| 503 | ;; |
| 504 | *) |
| 505 | message="$message" |
| 506 | ;; |
| 507 | esac |
| 508 | |
| 509 | # Добавяне на UPS статус |
| 510 | case "$ups_status" in |
| 511 | "OK"*) |
| 512 | local ups_info=$(echo "$ups_status" | cut -d: -f2-) |
| 513 | message="$message |
| 514 | • UPS: <code>Нормално ($ups_info)</code>" |
| 515 | ;; |
| 516 | "ISSUE"*) |
| 517 | local ups_info=$(echo "$ups_status" | cut -d: -f2-) |
| 518 | message="$message |
| 519 | • UPS: <code>Проблем ($ups_info)</code>" |
| 520 | ;; |
| 521 | *) |
| 522 | message="$message" |
| 523 | ;; |
| 524 | esac |
| 525 | |
| 526 | # Добавяне на статус на контейнери |
| 527 | local container_status=$(get_container_status) |
| 528 | local running_count=0 |
| 529 | local stopped_count=0 |
| 530 | local problem_containers=() |
| 531 | |
| 532 | while IFS= read -r line; do |
| 533 | if [[ -n "$line" ]]; then |
| 534 | local vmid=$(echo "$line" | cut -d: -f1) |
| 535 | local status=$(echo "$line" | cut -d: -f2) |
| 536 | local name=$(echo "$line" | cut -d: -f3) |
| 537 | local type=$(echo "$line" | cut -d: -f4) |
| 538 | local ip=$(echo "$line" | cut -d: -f5) |
| 539 | |
| 540 | if [[ "$status" == "running" ]]; then |
| 541 | ((running_count++)) |
| 542 | else |
| 543 | ((stopped_count++)) |
| 544 | problem_containers+=("$type $vmid ($name) [$ip]: $status") |
| 545 | fi |
| 546 | fi |
| 547 | done <<< "$container_status" |
| 548 | |
| 549 | message="$message |
| 550 | |
| 551 | <b>🔧 Контейнери/ВМ:</b> |
| 552 | • Работят: <code>$running_count</code> |
| 553 | • Спряни: <code>$stopped_count</code>" |
| 554 | |
| 555 | # Добавяне на проблеми, ако има |
| 556 | if [[ -n "$issues" ]]; then |
| 557 | message="$message |
| 558 | |
| 559 | <b>⚠️ Открити проблеми:</b> |
| 560 | $issues" |
| 561 | fi |
| 562 | |
| 563 | # Добавяне на детайли за спрени контейнери |
| 564 | if [[ ${#problem_containers[@]} -gt 0 ]]; then |
| 565 | message="$message |
| 566 | |
| 567 | <b>🔴 Спрени контейнери/ВМ:</b>" |
| 568 | for container in "${problem_containers[@]}"; do |
| 569 | message="$message |
| 570 | • <code>$container</code>" |
| 571 | done |
| 572 | fi |
| 573 | |
| 574 | # Добавяне на подробна информация за хранилища |
| 575 | if [[ "$report_type" == "DETAILED" ]]; then |
| 576 | message="$message |
| 577 | |
| 578 | <b>💾 Хранилища:</b>" |
| 579 | |
| 580 | while IFS= read -r line; do |
| 581 | if [[ -n "$line" ]]; then |
| 582 | local storage=$(echo "$line" | awk '{print $1}') |
| 583 | local type=$(echo "$line" | awk '{print $2}') |
| 584 | local status=$(echo "$line" | awk '{print $3}') |
| 585 | local total=$(echo "$line" | awk '{print $4}') |
| 586 | local used=$(echo "$line" | awk '{print $5}') |
| 587 | local avail=$(echo "$line" | awk '{print $6}') |
| 588 | |
| 589 | message="$message |
| 590 | • <code>$storage</code> ($type): $status | Използвано: $used от $total | Свободно: $avail" |
| 591 | fi |
| 592 | done < <(pvesm status | tail -n +2) |
| 593 | fi |
| 594 | |
| 595 | echo "$message" |
| 596 | } |
| 597 | |
| 598 | # Проверка на здравето на системата |
| 599 | check_system_health() { |
| 600 | local issues=() |
| 601 | local current_status=() |
| 602 | |
| 603 | # Проверка на CPU |
| 604 | local cpu_usage=$(get_cpu_usage) |
| 605 | if [[ "$cpu_usage" -gt "$CPU_THRESHOLD" ]]; then |
| 606 | issues+=("Високо CPU използване: ${cpu_usage}% (Лимит: ${CPU_THRESHOLD}%)") |
| 607 | fi |
| 608 | current_status+=("cpu:$cpu_usage") |
| 609 | |
| 610 | # Проверка на памет |
| 611 | local memory_usage=$(get_memory_usage) |
| 612 | if [[ "$memory_usage" -gt "$MEMORY_THRESHOLD" ]]; then |
| 613 | issues+=("Високо използване на памет: ${memory_usage}% (Лимит: ${MEMORY_THRESHOLD}%)") |
| 614 | fi |
| 615 | current_status+=("memory:$memory_usage") |
| 616 | |
| 617 | # Проверка на диск |
| 618 | local disk_usage=$(get_disk_usage) |
| 619 | if [[ "$disk_usage" -gt "$DISK_THRESHOLD" ]]; then |
| 620 | issues+=("Високо дисково използване: ${disk_usage}% (Лимит: ${DISK_THRESHOLD}%)") |
| 621 | fi |
| 622 | current_status+=("disk:$disk_usage") |
| 623 | |
| 624 | # Проверка на натоварване |
| 625 | local load_avg=$(get_load_average) |
| 626 | if (( $(echo "$load_avg > $LOAD_THRESHOLD" | bc -l) )); then |
| 627 | issues+=("Високо средно натоварване: $load_avg (Лимит: $LOAD_THRESHOLD)") |
| 628 | fi |
| 629 | current_status+=("load:$load_avg") |
| 630 | |
| 631 | # Проверка на температура |
| 632 | local temperature=$(get_temperature) |
| 633 | if [[ "$temperature" -gt "$TEMP_THRESHOLD" ]]; then |
| 634 | issues+=("Висока температура на CPU: ${temperature}°C (Лимит: ${TEMP_THRESHOLD}°C)") |
| 635 | fi |
| 636 | current_status+=("temp:$temperature") |
| 637 | |
| 638 | # Проверка на мрежа |
| 639 | local network_usage=$(get_network_usage) |
| 640 | local rx=$(echo "$network_usage" | cut -d: -f1) |
| 641 | local tx=$(echo "$network_usage" | cut -d: -f2) |
| 642 | if [[ "$rx" -gt "$NETWORK_THRESHOLD" ]]; then |
| 643 | issues+=("Високо входящо мрежово натоварване: ${rx}KB/s (Лимит: ${NETWORK_THRESHOLD}KB/s)") |
| 644 | fi |
| 645 | if [[ "$tx" -gt "$NETWORK_THRESHOLD" ]]; then |
| 646 | issues+=("Високо изходящо мрежово натоварване: ${tx}KB/s (Лимит: ${NETWORK_THRESHOLD}KB/s)") |
| 647 | fi |
| 648 | current_status+=("network_rx:$rx") |
| 649 | current_status+=("network_tx:$tx") |
| 650 | |
| 651 | # Проверка на Proxmox услуги |
| 652 | local service_status=$(check_proxmox_services) |
| 653 | if [[ "$service_status" != "OK" ]]; then |
| 654 | local failed_services=$(echo "$service_status" | cut -d: -f2 | tr '|' ', ') |
| 655 | issues+=("Неуспешни услуги: $failed_services") |
| 656 | fi |
| 657 | current_status+=("services:$service_status") |
| 658 | |
| 659 | # Проверка на хранилище |
| 660 | local storage_status=$(check_storage_usage) |
| 661 | if [[ "$storage_status" != "OK" ]]; then |
| 662 | local storage_issues=$(echo "$storage_status" | cut -d: -f2 | tr '|' ', ') |
| 663 | issues+=("Проблеми с хранилище: $storage_issues") |
| 664 | fi |
| 665 | current_status+=("storage:$storage_status") |
| 666 | |
| 667 | # Проверка на ZFS |
| 668 | local zfs_status=$(check_zfs_pools) |
| 669 | if [[ "$zfs_status" == "ISSUES"* ]]; then |
| 670 | local zfs_issues=$(echo "$zfs_status" | cut -d: -f2 | tr '|' ', ') |
| 671 | issues+=("Проблеми с ZFS: $zfs_issues") |
| 672 | fi |
| 673 | current_status+=("zfs:$zfs_status") |
| 674 | |
| 675 | # Проверка на RAID |
| 676 | local raid_status=$(check_raid_status) |
| 677 | if [[ "$raid_status" == "DEGRADED"* ]]; then |
| 678 | local raid_issues=$(echo "$raid_status" | cut -d: -f2) |
| 679 | issues+=("Проблеми с RAID: $raid_issues") |
| 680 | fi |
| 681 | current_status+=("raid:$raid_status") |
| 682 | |
| 683 | # Проверка на UPS |
| 684 | local ups_status=$(check_ups_status) |
| 685 | if [[ "$ups_status" == "ISSUE"* ]]; then |
| 686 | local ups_issues=$(echo "$ups_status" | cut -d: -f2-) |
| 687 | issues+=("Проблеми с UPS: $ups_issues") |
| 688 | fi |
| 689 | current_status+=("ups:$ups_status") |
| 690 | |
| 691 | # Проверка на контейнери |
| 692 | local container_status=$(get_container_status) |
| 693 | local stopped_containers=() |
| 694 | |
| 695 | while IFS= read -r line; do |
| 696 | if [[ -n "$line" ]]; then |
| 697 | local vmid=$(echo "$line" | cut -d: -f1) |
| 698 | local status=$(echo "$line" | cut -d: -f2) |
| 699 | local name=$(echo "$line" | cut -d: -f3) |
| 700 | local type=$(echo "$line" | cut -d: -f4) |
| 701 | |
| 702 | if [[ "$status" != "running" ]]; then |
| 703 | stopped_containers+=("$type $vmid ($name)") |
| 704 | fi |
| 705 | fi |
| 706 | done <<< "$container_status" |
| 707 | |
| 708 | if [[ ${#stopped_containers[@]} -gt 0 ]]; then |
| 709 | issues+=("Спряни контейнери: ${stopped_containers[*]}") |
| 710 | fi |
| 711 | current_status+=("containers:${#stopped_containers[@]}_stopped") |
| 712 | |
| 713 | # Запазване на текущия статус |
| 714 | printf '%s\n' "${current_status[@]}" > "$STATUS_FILE" |
| 715 | |
| 716 | # Архивиране на статуса |
| 717 | if [[ "$BACKUP_ENABLED" == true ]]; then |
| 718 | local last_backup=$(stat -c %Y "$STATUS_FILE" 2>/dev/null || echo 0) |
| 719 | local current_time=$(date +%s) |
| 720 | |
| 721 | if (( current_time - last_backup > BACKUP_INTERVAL )); then |
| 722 | gzip -c "$STATUS_FILE" > "$BACKUP_DIR/status_$(date +%Y%m%d%H%M%S).json.gz" |
| 723 | fi |
| 724 | fi |
| 725 | |
| 726 | # Връщане на проблеми |
| 727 | if [[ ${#issues[@]} -gt 0 ]]; then |
| 728 | printf '%s\n' "${issues[@]}" |
| 729 | fi |
| 730 | } |
| 731 | |
| 732 | # Главна функция за мониторинг |
| 733 | monitor_system() { |
| 734 | if ! init_script; then |
| 735 | exit 1 |
| 736 | fi |
| 737 | |
| 738 | local issues=$(check_system_health) |
| 739 | local previous_issues="" |
| 740 | |
| 741 | # Зареждане на предишен статус |
| 742 | if [[ -f "$STATUS_FILE.prev" ]]; then |
| 743 | previous_issues=$(cat "$STATUS_FILE.prev" 2>/dev/null || echo "") |
| 744 | fi |
| 745 | |
| 746 | # Текущи проблеми като стринг |
| 747 | local current_issues_str="" |
| 748 | if [[ -n "$issues" ]]; then |
| 749 | current_issues_str=$(echo "$issues" | tr '\n' '|') |
| 750 | fi |
| 751 | |
| 752 | # Проверка дали статуса е променен |
| 753 | if [[ "$current_issues_str" != "$previous_issues" ]]; then |
| 754 | if [[ -n "$issues" ]]; then |
| 755 | # Открити са нови проблеми |
| 756 | local formatted_issues="" |
| 757 | while IFS= read -r issue; do |
| 758 | formatted_issues="$formatted_issues• $issue\n" |
| 759 | done <<< "$issues" |
| 760 | |
| 761 | local report=$(generate_status_report "ALERT" "$formatted_issues") |
| 762 | send_telegram_notification "$report" |
| 763 | log_message "ALERT" "Открити проблеми: $issues" |
| 764 | elif [[ -n "$previous_issues" ]]; then |
| 765 | # Проблемите са разрешени |
| 766 | local report=$(generate_status_report "RECOVERY" "") |
| 767 | send_telegram_notification "$report" |
| 768 | log_message "INFO" "Проблемите са разрешени" |
| 769 | fi |
| 770 | |
| 771 | # Запазване на текущия статус като предишен |
| 772 | echo "$current_issues_str" > "$STATUS_FILE.prev" |
| 773 | fi |
| 774 | } |
| 775 | |
| 776 | # Функция за инсталация |
| 777 | install_monitor() { |
| 778 | echo -e "${BLUE}Инсталиране на Proxmox Monitor...${NC}" |
| 779 | |
| 780 | # Проверка за root потребител |
| 781 | if [[ $EUID -ne 0 ]]; then |
| 782 | echo -e "${RED}Грешка: Скриптът трябва да се изпълнява с root права${NC}" |
| 783 | exit 1 |
| 784 | fi |
| 785 | |
| 786 | # Инсталиране на зависимости |
| 787 | log_message "INFO" "Инсталиране на зависимости..." |
| 788 | apt-get update |
| 789 | apt-get install -y curl bc jq lm-sensors megacli snmp nut |
| 790 | |
| 791 | # Инициализиране на скрипта |
| 792 | if ! init_script; then |
| 793 | echo -e "${RED}Инсталацията неуспешна. Моля, конфигурирайте скрипта.${NC}" |
| 794 | exit 1 |
| 795 | fi |
| 796 | |
| 797 | # Създаване на systemd услуга |
| 798 | log_message "INFO" "Създаване на systemd услуга..." |
| 799 | cat > /etc/systemd/system/proxmox-monitor.service << EOF |
| 800 | [Unit] |
| 801 | Description=Proxmox Comprehensive Monitor |
| 802 | After=network.target |
| 803 | |
| 804 | [Service] |
| 805 | Type=simple |
| 806 | User=root |
| 807 | ExecStart=$0 daemon |
| 808 | Restart=always |
| 809 | RestartSec=10 |
| 810 | Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin" |
| 811 | |
| 812 | [Install] |
| 813 | WantedBy=multi-user.target |
| 814 | EOF |
| 815 | |
| 816 | # Създаване на systemd таймер |
| 817 | log_message "INFO" "Създаване на systemd таймер..." |
| 818 | cat > /etc/systemd/system/proxmox-monitor.timer << EOF |
| 819 | [Unit] |
| 820 | Description=Proxmox Monitor Timer |
| 821 | Requires=proxmox-monitor.service |
| 822 | |
| 823 | [Timer] |
| 824 | OnBootSec=60 |
| 825 | OnUnitActiveSec=${CHECK_INTERVAL}s |
| 826 | AccuracySec=1s |
| 827 | |
| 828 | [Install] |
| 829 | WantedBy=timers.target |
| 830 | EOF |
| 831 | |
| 832 | # Активиране и стартиране на услугите |
| 833 | log_message "INFO" "Активиране на услугите..." |
| 834 | systemctl daemon-reload |
| 835 | systemctl enable proxmox-monitor.timer |
| 836 | systemctl start proxmox-monitor.timer |
| 837 | |
| 838 | # Проверка на състоянието |
| 839 | sleep 2 |
| 840 | local timer_status=$(systemctl is-active proxmox-monitor.timer) |
| 841 | local service_status=$(systemctl is-active proxmox-monitor.service) |
| 842 | |
| 843 | if [[ "$timer_status" == "active" && "$service_status" == "active" ]]; then |
| 844 | echo -e "${GREEN}✅ Proxmox Monitor е инсталиран и стартиран успешно!${NC}" |
| 845 | echo -e "${YELLOW}Конфигурационен файл: $CONFIG_FILE${NC}" |
| 846 | echo -e "${YELLOW}Лог файл: $LOG_FILE${NC}" |
| 847 | echo -e "${YELLOW}Статус: systemctl status proxmox-monitor.timer${NC}" |
| 848 | log_message "INFO" "Успешна инсталация на Proxmox Monitor" |
| 849 | else |
| 850 | echo -e "${RED}❌ Грешка при инсталацията${NC}" |
| 851 | echo -e "${YELLOW}Състояние на таймера: $timer_status${NC}" |
| 852 | echo -e "${YELLOW}Състояние на услугата: $service_status${NC}" |
| 853 | log_message "ERROR" "Грешка при инсталация. Състояние на таймера: $timer_status, услугата: $service_status" |
| 854 | exit 1 |
| 855 | fi |
| 856 | } |
| 857 | |
| 858 | # Показване на употреба |
| 859 | usage() { |
| 860 | echo "Употреба: $0 [команда]" |
| 861 | echo "Команди:" |
| 862 | echo " install - Инсталира и конфигурира монитора" |
| 863 | echo " daemon - Стартира като демон (използва се от systemd)" |
| 864 | echo " check - Извършва единична проверка" |
| 865 | echo " status - Показва текущия статус" |
| 866 | echo " summary - Изпраща обобщен отчет" |
| 867 | echo " detailed - Изпраща подробен отчет" |
| 868 | echo " test - Тества Telegram известието" |
| 869 | echo " config - Показва конфигурацията" |
| 870 | echo " logs - Показва последните логове" |
| 871 | echo " backup - Създава ръчно архивиране на статуса" |
| 872 | echo " help - Показва тази помощ" |
| 873 | exit 1 |
| 874 | } |
| 875 | |
| 876 | # Показване на текущия статус |
| 877 | show_status() { |
| 878 | if ! init_script; then |
| 879 | exit 1 |
| 880 | fi |
| 881 | |
| 882 | echo -e "${BLUE}=== Статус на Proxmox Monitor ===${NC}" |
| 883 | echo |
| 884 | |
| 885 | local system_info=$(get_system_info) |
| 886 | echo "$system_info" | while IFS=: read -r key value; do |
| 887 | echo -e "${GREEN}$key:${NC} $value" |
| 888 | done |
| 889 | |
| 890 | echo |
| 891 | echo -e "${BLUE}=== Системни ресурси ===${NC}" |
| 892 | echo -e "${GREEN}CPU използване:${NC} $(get_cpu_usage)%" |
| 893 | echo -e "${GREEN}Използване на памет:${NC} $(get_memory_usage)%" |
| 894 | echo -e "${GREEN}Дисково използване:${NC} $(get_disk_usage)%" |
| 895 | echo -e "${GREEN}Средно натоварване:${NC} $(get_load_average)" |
| 896 | echo -e "${GREEN}Температура на CPU:${NC} $(get_temperature)°C" |
| 897 | |
| 898 | local network_usage=$(get_network_usage) |
| 899 | echo -e "${GREEN}Мрежова активност:${NC} ⬇️ $(echo "$network_usage" | cut -d: -f1) KB/s ⬆️ $(echo "$network_usage" | cut -d: -f2) KB/s" |
| 900 | |
| 901 | echo |
| 902 | echo -e "${BLUE}=== Услуги ===${NC}" |
| 903 | local service_status=$(check_proxmox_services) |
| 904 | if [[ "$service_status" == "OK" ]]; then |
| 905 | echo -e "${GREEN}Всички Proxmox услуги работят${NC}" |
| 906 | else |
| 907 | echo -e "${RED}Неуспешни услуги: $(echo "$service_status" | cut -d: -f2)${NC}" |
| 908 | fi |
| 909 | |
| 910 | echo |
| 911 | echo -e "${BLUE}=== ZFS ===${NC}" |
| 912 | local zfs_status=$(check_zfs_pools) |
| 913 | case "$zfs_status" in |
| 914 | "OK") |
| 915 | echo -e "${GREEN}Всички ZFS пулове са нормални${NC}" |
| 916 | ;; |
| 917 | "ISSUES"*) |
| 918 | echo -e "${RED}Проблеми с ZFS: $(echo "$zfs_status" | cut -d: -f2)${NC}" |
| 919 | ;; |
| 920 | "NO_POOLS") |
| 921 | echo -e "${YELLOW}Няма ZFS пулове${NC}" |
| 922 | ;; |
| 923 | *) |
| 924 | echo -e "${YELLOW}ZFS статус: $zfs_status${NC}" |
| 925 | ;; |
| 926 | esac |
| 927 | |
| 928 | echo |
| 929 | echo -e "${BLUE}=== RAID ===${NC}" |
| 930 | local raid_status=$(check_raid_status) |
| 931 | case "$raid_status" in |
| 932 | "OK") |
| 933 | echo -e "${GREEN}RAID масивът е нормален${NC}" |
| 934 | ;; |
| 935 | "DEGRADED"*) |
| 936 | echo -e "${RED}Проблеми с RAID: $(echo "$raid_status" | cut -d: -f2)${NC}" |
| 937 | ;; |
| 938 | *) |
| 939 | echo -e "${YELLOW}RAID статус: $raid_status${NC}" |
| 940 | ;; |
| 941 | esac |
| 942 | |
| 943 | echo |
| 944 | echo -e "${BLUE}=== UPS ===${NC}" |
| 945 | local ups_status=$(check_ups_status) |
| 946 | case "$ups_status" in |
| 947 | "OK"*) |
| 948 | echo -e "${GREEN}UPS статус: $(echo "$ups_status" | cut -d: -f2-)${NC}" |
| 949 | ;; |
| 950 | "ISSUE"*) |
| 951 | echo -e "${RED}Проблеми с UPS: $(echo "$ups_status" | cut -d: -f2-)${NC}" |
| 952 | ;; |
| 953 | "NO_UPS") |
| 954 | echo -e "${YELLOW}Няма конфигуриран UPS${NC}" |
| 955 | ;; |
| 956 | *) |
| 957 | echo -e "${YELLOW}UPS статус: $ups_status${NC}" |
| 958 | ;; |
| 959 | esac |
| 960 | |
| 961 | echo |
| 962 | echo -e "${BLUE}=== Контейнери/ВМ ===${NC}" |
| 963 | local container_status=$(get_container_status) |
| 964 | local running=0 |
| 965 | local stopped=0 |
| 966 | |
| 967 | while IFS= read -r line; do |
| 968 | if [[ -n "$line" ]]; then |
| 969 | local vmid=$(echo "$line" | cut -d: -f1) |
| 970 | local status=$(echo "$line" | cut -d: -f2) |
| 971 | local name=$(echo "$line" | cut -d: -f3) |
| 972 | local type=$(echo "$line" | cut -d: -f4) |
| 973 | local ip=$(echo "$line" | cut -d: -f5) |
| 974 | |
| 975 | if [[ "$status" == "running" ]]; then |
| 976 | ((running++)) |
| 977 | echo -e "${GREEN}✅ $type $vmid ($name) [$ip]: $status${NC}" |
| 978 | else |
| 979 | ((stopped++)) |
| 980 | echo -e "${RED}❌ $type $vmid ($name) [$ip]: $status${NC}" |
| 981 | fi |
| 982 | fi |
| 983 | done <<< "$container_status" |
| 984 | |
| 985 | echo |
| 986 | echo -e "${BLUE}Обобщение: ${GREEN}$running работят${NC}, ${RED}$stopped спрени${NC}" |
| 987 | } |
| 988 | |
| 989 | # Тестване на Telegram известие |
| 990 | test_telegram() { |
| 991 | if ! init_script; then |
| 992 | exit 1 |
| 993 | fi |
| 994 | |
| 995 | echo -e "${BLUE}Тестване на Telegram известие...${NC}" |
| 996 | |
| 997 | local test_message="🧪 <b>Proxmox Monitor Тест</b> |
| 998 | |
| 999 | Това е тестово съобщение от вашата Proxmox система за мониторинг. |
| 1000 | |
| 1001 | <b>Система:</b> $(hostname) |
| 1002 | <b>Време:</b> $(date) |
| 1003 | <b>Статус:</b> ✅ Тестът е успешен |
| 1004 | |
| 1005 | <b>📊 Системни ресурси:</b> |
| 1006 | • CPU: <code>$(get_cpu_usage)%</code> |
| 1007 | • Памет: <code>$(get_memory_usage)%</code> |
| 1008 | • Диск: <code>$(get_disk_usage)%</code> |
| 1009 | • Натоварване: <code>$(get_load_average)</code>" |
| 1010 | |
| 1011 | if send_telegram_notification "$test_message"; then |
| 1012 | echo -e "${GREEN}✅ Тестовото известие е изпратено успешно!${NC}" |
| 1013 | log_message "INFO" "Успешен тест на Telegram известие" |
| 1014 | else |
| 1015 | echo -e "${RED}❌ Грешка при изпращане на тестово известие${NC}" |
| 1016 | echo -e "${YELLOW}Моля, проверете вашата Telegram конфигурация${NC}" |
| 1017 | log_message "ERROR" "Грешка при тест на Telegram известие" |
| 1018 | fi |
| 1019 | } |
| 1020 | |
| 1021 | # Създаване на ръчно архивиране |
| 1022 | create_backup() { |
| 1023 | if ! init_script; then |
| 1024 | exit 1 |
| 1025 | fi |
| 1026 | |
| 1027 | echo -e "${BLUE}Създаване на архивиране на статуса...${NC}" |
| 1028 | |
| 1029 | if [[ ! -f "$STATUS_FILE" ]]; then |
| 1030 | echo -e "${YELLOW}Няма данни за статус за архивиране${NC}" |
| 1031 | return |
| 1032 | fi |
| 1033 | |
| 1034 | local backup_file="$BACKUP_DIR/status_$(date +%Y%m%d%H%M%S).json.gz" |
| 1035 | gzip -c "$STATUS_FILE" > "$backup_file" |
| 1036 | |
| 1037 | if [[ $? -eq 0 ]]; then |
| 1038 | echo -e "${GREEN}✅ Успешно архивиране: $backup_file${NC}" |
| 1039 | log_message "INFO" "Успешно ръчно архивиране: $backup_file" |
| 1040 | else |
| 1041 | echo -e "${RED}❌ Грешка при архивиране${NC}" |
| 1042 | log_message "ERROR" "Грешка при ръчно архивиране" |
| 1043 | fi |
| 1044 | } |
| 1045 | |
| 1046 | # Главно изпълнение |
| 1047 | case "${1:-}" in |
| 1048 | "install") |
| 1049 | install_monitor |
| 1050 | ;; |
| 1051 | "daemon") |
| 1052 | while true; do |
| 1053 | monitor_system |
| 1054 | sleep "$CHECK_INTERVAL" |
| 1055 | done |
| 1056 | ;; |
| 1057 | "check") |
| 1058 | monitor_system |
| 1059 | ;; |
| 1060 | "status") |
| 1061 | show_status |
| 1062 | ;; |
| 1063 | "summary") |
| 1064 | if init_script; then |
| 1065 | report=$(generate_status_report "SUMMARY" "") |
| 1066 | send_telegram_notification "$report" |
| 1067 | echo -e "${GREEN}Обобщен отчет изпратен${NC}" |
| 1068 | fi |
| 1069 | ;; |
| 1070 | "detailed") |
| 1071 | if init_script; then |
| 1072 | report=$(generate_status_report "DETAILED" "") |
| 1073 | send_telegram_notification "$report" |
| 1074 | echo -e "${GREEN}Подробен отчет изпратен${NC}" |
| 1075 | fi |
| 1076 | ;; |
| 1077 | "test") |
| 1078 | test_telegram |
| 1079 | ;; |
| 1080 | "config") |
| 1081 | if [[ -f "$CONFIG_FILE" ]]; then |
| 1082 | echo -e "${BLUE}=== Конфигурация ===${NC}" |
| 1083 | cat "$CONFIG_FILE" |
| 1084 | else |
| 1085 | echo -e "${RED}Конфигурационен файл не е намерен${NC}" |
| 1086 | fi |
| 1087 | ;; |
| 1088 | "logs") |
| 1089 | if [[ -f "$LOG_FILE" ]]; then |
| 1090 | echo -e "${BLUE}=== Последни 20 лога ===${NC}" |
| 1091 | tail -20 "$LOG_FILE" |
| 1092 | echo -e "\n${BLUE}=== Обобщение на грешките ===${NC}" |
| 1093 | grep -i "error" "$LOG_FILE" | tail -10 |
| 1094 | else |
| 1095 | echo -e "${YELLOW}Няма намерени логове${NC}" |
| 1096 | fi |
| 1097 | ;; |
| 1098 | "backup") |
| 1099 | create_backup |
| 1100 | ;; |
| 1101 | "help"|*) |
| 1102 | usage |
| 1103 | ;; |
| 1104 | esac |