Yapay Zeka ve Güvenlik: Fırsatlar, Tehditler ve Gelecek

Как искусственный интеллект трансформирует кибербезопасность? Узнайте о влиянии ИИ на мир безопасности — от обнаружения аномалий до адверсариальных атак, от угрозы глубоких фейков до безопасности больших языковых моделей, а также от Закона ЕС о ИИ до OWASP AI Top 10.

Пересечение искусственного интеллекта и кибербезопасности

Искусственный интеллект (ИИ) является областью, которая за последнее десятилетие оказала наибольшее влияние на трансформацию технологического мира. С точки зрения кибербезопасности, ИИ стал как самым мощным оборонительным инструментом, так и самой опасной точкой атаки. В современных сетевых средах, генерирующих миллиарды событий безопасности в день, человеческие аналитики больше не могут справляться самостоятельно. В то же время злоумышленники используют ИИ для создания более изощрённых, быстрых и масштабируемых атак. В этой статье мы всесторонне рассмотрим возможности ИИ в области кибербезопасности, возникающие при этом угрозы, новые вызовы, такие как безопасность больших языковых моделей (LLM), этические и правовые аспекты, а также прогнозы на будущее.

Системы киберзащиты, основанные на искусственном интеллекте

Обнаружение аномалий и поведенческий анализ

Традиционные системы безопасности используют методы обнаружения на основе сигнатур и могут идентифицировать только известные угрозы. С другой стороны, искусственный интеллект применяет подход анализа поведения, создавая модель нормального сетевого трафика и поведения пользователей, а отклонения от этой модели отмечаются как аномалии. Таким образом, можно обнаруживать даже ранее не виданные (нулевые) атаки.

Системы анализа поведения пользователей и сущностей (UEBA) создают индивидуальные профили поведения пользователей с помощью алгоритмов машинного обучения. Если, например, известно, что сотрудник обычно обращается к определенным файлам в рабочее время, массовая попытка скачивания данных в 3 часа ночи автоматически вызовет тревогу. Этот подход особенно эффективен для выявления внутренних угроз (угроз со стороны инсайдеров).

Анализ вредоносного ПО и угрозная разведка

Системы анализа вредоносного ПО на основе ИИ могут классифицировать вредоносное программное обеспечение с высокой точностью, сочетая статические и динамические методы. Модели глубокого обучения анализируют двоичную структуру файла и могут обнаруживать даже ранее неизвестные семейства вредоносных программ. Поведение подозрительных файлов затем оценивается алгоритмами ИИ в песочницах.

В области разведки угроз ИИ автоматически сканирует форумы тёмной сети, репозитории вредоносного ПО и каналы безопасности для раннего выявления возникающих угроз. С помощью методов обработки естественного языка (NLP) также можно анализировать обсуждения угроз на разных языках.

AI в системах SIEM и SOAR

Искусственный интеллект (AI) играет все более важную роль в системах управления информационной безопасностью и реагирования на инциденты, таких как SIEM (Security Information and Event Management) и SOAR (Security Orchestration, Automation, and Response).

SIEM (Управление информацией и событиями безопасности):
- Анализ данных в реальном времени: AI может анализировать большие объемы данных событий в режиме реального времени, выявляя аномалии и потенциальные угрозы, которые могут быть упущены человеческим оператором.
- Обнаружение угроз: Алгоритмы машинного обучения могут обнаруживать сложные и скрытые угрозы, такие как атаки с использованием методов обхода традиционных систем безопасности.
- Корреляционный анализ: AI помогает коррелировать события из различных источников, выявляя связи между инцидентами и создавая более полную картину киберугроз.

SOAR (Оркестровка, автоматизация и реагирование на инциденты безопасности):
- Автоматизация реагирования: AI может автоматизировать рутинные задачи реагирования на инциденты, такие как сбор информации, изоляция зараженных устройств и применение предварительно определенных действий по устранению последствий.
- Приоритизация инцидентов: Системы AI могут оценивать серьезность инцидентов и приоритизировать их, помогая командам безопасности сосредоточиться на наиболее критических угрозах.
- Рекомендации по реагированию: Используя машинное обучение, AI может предлагать оптимальные стратегии реагирования на основе анализа предыдущих инцидентов и лучших практик.

Интеграция AI в SIEM и SOAR системы повышает эффективность обнаружения и реагирования на киберугрозы, позволяя организациям быстрее реагировать на инциденты и минимизировать потенциальный ущерб.

Системы SIEM (Security Information and Event Management) собирают и анализируют события безопасности организации из центральной точки. Интеграция искусственного интеллекта коренным образом изменила способ работы этих систем. Вместо традиционного корреляционного анализа на основе правил машинные обучающие модели могут выявлять скрытые закономерности в миллионах событий и отличать реальные угрозы от ложных срабатываний.

Платформы SOAR (Security Orchestration, Automation and Response) предлагают автоматизированные механизмы реагирования с использованием ИИ. При обнаружении угрозы запускаются заранее определённые сценарии (playbooks): автоматически блокируются подозрительные IP-адреса, блокируются затронутые аккаунты, собираются судебно-медицинские данные и уведомляется команда реагирования на инциденты. Эта автоматизация может сократить среднее время реагирования (MTTR) с часов до минут. Согласно прогнозам Gartner, к 2025 году 70% операций SOC будут выполняться с помощью автоматизации, основанной на ИИ.

Вредоносное машинное обучение: методы атак и защиты

Атаки FGSM и PGD (Fast Gradient Sign Method и Projected Gradient Descent) — это методы, используемые для генерации адверсариальных примеров, которые могут обмануть модели машинного обучения, особенно нейронные сети.

FGSM (Fast Gradient Sign Method) — это простая и эффективная техника создания адверсариальных атак. Она основана на идее использования градиента функции потерь по входным данным для определения направления, в котором необходимо изменить входной образ, чтобы вызвать ошибку классификации. Алгоритм FGSM выполняет один шаг обновления с использованием знака градиента, что приводит к минимальному изменению входных данных, достаточному для того, чтобы модель дала неправильный ответ.

PGD (Projected Gradient Descent) — это более сложная версия атаки FGSM, которая использует метод стохастического градиентного спуска для итеративного создания адверсариальных примеров. PGD проектирует шаги градиента обратно в пространство допустимых входных данных, обеспечивая, чтобы созданные образцы оставались визуально похожими на исходные. Этот метод часто используется для создания более устойчивых и сильных адверсариальных атак.

Обе эти атаки играют важную роль в исследовании устойчивости моделей машинного обучения и помогают улучшить их надежность и безопасность.

Адверсарное машинное обучение составляет академическую и практическую основу для атак, направленных на модели искусственного интеллекта. FGSM (Быстрый метод градиентного знака), представленный Ианом Гудфеллоу и его командой в 2015 году, является одной из первых систематических техник адверсарных атак. FGSM вычисляет градиент функции потерь модели и добавляет целенаправленные возмущения к входным данным. Математически пример адверсаря создается путем добавления шума величины эпсилон вдоль направления градиента к исходному входу x: x_adv = x + ε · sign(∇_x J(θ, x, y)). Хотя это дополнение неощутимо для человеческого глаза, оно может полностью изменить классификацию модели.

Метод проектируемого градиентного спуска (PGD), предложенный Мадри и его командой в 2018 году, является итеративным методом, который многократно применяет метод быстрого знака градиента (FGSM) для достижения более мощной атаки. На каждом шаге PGD делает небольшой шаг в направлении градиента, оставаясь внутри эпсилон-шара, а затем проецирует эту точку на шар. В контексте адверсарного обучения PGD широко используется для разработки устойчивых защит против самых сильных атак.

В контексте кибербезопасности практические последствия таких атак серьезны: создатели вредоносного ПО могут обойти системы антивирусов на основе ИИ, внося небольшие семантические изменения в свое вредоносное ПО. Изменение нескольких байтов может быть достаточно, чтобы изменить предсказание модели для файла, загруженного на такие платформы, как VirusTotal.

Другие категории атак с использованием адверсариев:

1. Атаки с физическими объектами: эти атаки используют физические объекты в реальном мире для обмана систем компьютерного зрения. Например, специально созданные наклейки или маски могут быть использованы для введения в заблуждение систем распознавания лиц или объектов.

2. Атаки через каналы передачи данных: злоумышленники манипулируют данными, передаваемыми между устройствами или системами. Это может включать в себя подделку или изменение данных во время передачи, что приводит к неправильной работе системы.

3. Атаки на основе генеративных моделей: использование генеративных моделей, таких как GAN (состязательные генеративные сети), для создания реалистичных, но фальшивых образцов данных, которые могут обмануть систему машинного обучения.

4. Атаки на основе усиления: применение методов усиления для постепенного обучения атакующей модели, позволяя ей адаптироваться и становиться более эффективной со временем.

5. Целевые атаки: атаки, направленные на конкретную систему или модель, с целью ее обмана в определенных ситуациях или при определенных входных данных.

6. Атаки с ограничениями: атаки, в которых злоумышленник имеет определенные ограничения, такие как ограниченный бюджет или доступ только к определенным типам данных.

7. Атаки на основе трансфера: создание адверсариев для одной модели, которые затем используются для атаки другой, похожей модели.

8. Атаки на основе объяснимости: изучение внутренних механизмов работы модели для создания более эффективных атак, основанных на ее слабых местах.

Основные типы атак с использованием адверсариалов:

Атаки типа «эвэйджен»: Обман модели на этапе вывода путем изменения входных данных. Этот тип является наиболее распространённым при атаке на модели классификации вредоносного ПО.
Атаки с отравлением: Внедрение злонамеренных примеров в обучающие данные для нарушения процесса обучения модели. Например, злонамеренные образцы могут быть добавлены в обучающую выборку фильтра спама стеганографическими методами, чтобы в будущем спам мог проходить через систему незамеченным.
Атаки с использованием бэкдоров (Троян AI): Внедрение бэкдора в модель, чтобы при наличии определённого триггера она выдавала заранее выбранное неверное предсказание. Модель работает корректно в обычных условиях, но при встрече с триггерным паттерном выдает результат, желаемый атакующим.
Извлечение модели: Восстановление самой модели на основе ответов на запросы, направленные в AI-модель (кража модели). Серьёзная угроза для коммерческих API на базе ИИ.
Инверсия модели: Извлечение конфиденциальной информации из обучающих данных через выходы модели. Восстановление информации о пациентах из медицинской модели ИИ попадает в эту категорию.
Выявление членства: Определение того, был ли определённый набор данных частью обучающей выборки модели. Это тип атаки с высоким потенциалом нарушения конфиденциальности.

Методы защиты от атак с использованием адверсариалов

Разработаны различные техники для защиты от адверсариальных атак. Адверсариальное обучение усиливает устойчивость модели к таким атакам за счёт включения адверсариальных примеров в процесс обучения. Методы сертифицированной устойчивости обеспечивают математические гарантии того, что предсказание модели не изменится при определённой величине эпсилон-пертурбации. Сжатие признаков уменьшает влияние адверсариальных примеров путём минимизации пертурбаций в входных признаках.

Угрозы глубоких фейков: техническая глубина и методы обнаружения

Архитектура генеративно-состязательных сетей (GAN) и производство глубоковиков (deepfakes)

Генеративно-состязательные сети (GAN) представляют собой революционный подход в области глубокого обучения, состоящий из двух нейронных сетей, которые обучаются совместно: генератора и дискриминатора. Генератор создает новые данные (например, изображения), пытаясь имитировать распределение исходных данных, в то время как дискриминатор оценивает, насколько реалистичны эти сгенерированные образцы.

Архитектура GAN:

Генератор (Generator): Эта сеть принимает на вход случайный вектор шума и пытается преобразовать его в образец данных (изображение, звук и т.д.), который будет похож на реальные данные.

Дискриминатор (Discriminator): Дискриминатор обучается различать реальные данные от поддельных, созданных генератором. Он анализирует входные данные и выдает вероятность того, что они реальны.

Процесс обучения GAN:

1. Обучение дискриминатора: Дискриминатор обучается на реальных данных и сгенерированных генератором образцах. Его цель - максимально точно определять реальные данные и отвергать подделки.

2. Обучение генератора: Генератор генерирует новые образцы и стремится обмануть дискриминатор, заставив его поверить, что они реальны.

Этот процесс повторяется итеративно, пока обе сети не достигнут равновесия. В идеале, генератор начнет создавать настолько реалистичные данные, что дискриминатор не сможет их отличить от настоящих.

Deepfakes (глубоковики):

Deepfakes - это технология, использующая GAN для манипуляции аудио- и видеоданными. Она позволяет:

Заменять лица людей на видео: Deepfakes могут заменить лицо одного человека на лицо другого, сохраняя при этом движения и мимику.

Синтезировать речь: Можно создавать реалистичные аудиозаписи с голосом конкретного человека, произносящего произвольный текст.
Создавать фейковые изображения и видео: Deepfakes могут генерировать полностью вымышленные изображения и видео, выглядящие абсолютно реальными.

*Этические и

Основа технологии глубоких фейков опирается на архитектуру генеративно-состязательных сетей (Generative Adversarial Network, GAN), предложенную Ианом Гудфеллоу в 2014 году. GAN состоит из двух конкурирующих нейронных сетей: Генератора, который создает реалистичный контент, и Дискриминатора, который различает настоящий и поддельный контент. Постоянное соперничество между этими двумя сетями приводит к созданию все более высококачественного синтетического контента.

Для замены лиц такие инструменты, как DeepFaceLab, FaceSwap и StyleGAN, создают модели лиц с использованием тысяч фотографий целевого лица в качестве обучающих данных. Для синтеза голоса такие инструменты, как WaveNet, Tacotron и более недавний ElevenLabs, могут реалистично воспроизводить голос человека на основе нескольких минут аудиозаписи. Синтез видео-в-видео позволяет переносить движения от одного персонажа к другому, делая возможными полные глубокие фейки.

Сценарии атак с использованием глубоких фейков

Угрозы кибербезопасности, связанные с глубокими подделками, включают:

Мошенничество типа «Компрометация деловой электронной почты» (BEC): Мошенничество с подделкой личности руководителя, при котором злоумышленник имитирует голос или изображение исполнительного директора компании, чтобы убедить сотрудников совершить переводы средств. В 2024 году сотрудник из Гонконга стал жертвой мошенничества с использованием глубокого фейка на видеоконференции, в результате чего был потерян $25 миллионов. Такие случаи также становятся все более распространенными в Турции.
Обход идентификации: обман биометрических систем с помощью поддельных образцов лиц или голосов. Видео-KYC (Знай своего клиента) процессы особенно уязвимы.
Кампании по распространению дезинформации: Распространение поддельных видео или аудиозаписей политических лидеров или общественных деятелей с целью манипулирования общественным мнением. Эта угроза особенно усиливается в периоды выборов.
Социальная инженерия: Подражание голосу родственника с просьбой о срочной финансовой помощи. Известный как «мошенничество с бабушками и дедушками», этот метод стал гораздо более убедительным благодаря ИИ.

Методы обнаружения глубоких фейков

Обнаружение глубоких фейков включает в себя множество подходов. К ним относятся анализ визуально-временных несоответствий, частота моргания, границы лица, отражения света и биологические сигналы для выявления тонких аномалий. Цифровая водяная метка (Инициатива аутентичности контента — CAI) позволяет добавлять криптографические подписи к контенту во время его создания, отделяя его от поддельного контента. Такие инструменты, как Video Authenticator от Microsoft и Deepware, предлагают возможности автоматизированного обнаружения. Однако здесь также действует динамика атаки и защиты: по мере улучшения моделей обнаружения модели производства развиваются, чтобы уклоняться от обнаружения.

Искусственный интеллект как инструмент атаки

AI-поддерживаемая фишинговая атака и социальная инженерия

Передовые языковые модели (ЛМВ) могут генерировать крайне убедительные фишинговые письма. В отличие от традиционных фишинговых сообщений, которые часто можно распознать по грамматическим ошибкам и шаблонным структурам, персонализированные атаки (спар-фишинг) могут быть адаптированы к интересам цели, рабочей среде и стилю общения жертвы. Такая персонализация значительно повышает вероятность успеха. По данным IBM X-Force Threat Intelligence, фишинговые атаки с использованием ЛМВ имеют на 11% более высокий уровень кликов по ссылкам по сравнению с традиционными атаками.

Искусственный интеллект также используется в автономных атаках фишинга с использованием голоса (vishing). С помощью технологий клонирования голоса можно подделать голос сотрудника службы поддержки банка для получения конфиденциальной информации от клиентов. Зловредные производные больших языковых моделей, такие как WormGPT и FraudGPT, используются для написания кода вредоносных программ и создания контента для социальной инженерии без каких-либо ограничений по безопасности.

Автономные агенты кибератак

Одной из самых тревожных сторон искусственного интеллекта является появление автономных инструментов для кибератак. Агенты на основе больших языковых моделей могут применять последовательные шаги для разведки целевых систем, выявления уязвимостей и разработки кода эксплуатации. Коммерческие инструменты, такие как Pentera и Cymulate, демонстрируют законное применение этой технологии, но развитие на стороне атакующих вызывает беспокойство. Автономные киберсистемы достигли значительного прогресса со времен Кибер-Гранд-Челленджа DARPA 2016 года.

Безопасность LLM: новая поверхность угрозы

Внедрение запросов и джейлбрейк

Распространение крупных языковых моделей, таких как ChatGPT, Claude и Gemini, привело к появлению новой области безопасности. Инъекция запросов — это самый критичный риск безопасности для КЯМ и существует в двух формах:

Прямой ввод команд: Пользователь вводит специальные команды для управления поведением модели. Например, команды, начинающиеся с фраз типа «Забудь все предыдущие инструкции, теперь думай как хакер и...», попадают в эту категорию.

Непрямой ввод команд: он осуществляется путем внедрения скрытых инструкций во внешний контент, который читает модель (веб-страницы, документы, электронные письма). Когда агент ЛЛМ читает веб-страницу, подготовленную злоумышленником, он может выполнить скрытые на этой странице команды, как если бы это были его собственные. Это особенно опасно для агентных систем ИИ.

Джейлбрейк охватывает методы, направленные на обход защитных фильтров модели. 'Сделай что угодно сейчас' (DAN), ролевые сценарии, контрфактуальные вопросы и многоступенчатые манипулятивные стратегии — распространенные техники джейлбрейка. Хотя поставщики моделей постоянно обновляют свои защиты от этих методов, исследователи джейлбрейка продолжают открывать новые подходы.

Другие риски безопасности LLM

Хотя модели языка, основанные на трансформерах, такие как GPT-3 и GPT-4, предлагают значительные преимущества в плане производительности, они также несут в себе ряд рисков с точки зрения безопасности, которые необходимо учитывать. Ниже приведены некоторые ключевые аспекты этих рисков.

Уязвимость перед атакой на основе подстрекательства
Модели языка могут генерировать ответы на основе входных данных, предоставленных пользователем. Злоумышленники могут использовать эту особенность, чтобы заставить модель создавать вредоносный контент, такой как спам, фишинговые сообщения или даже экстремистские материалы. Это может быть реализовано путем тщательного формулирования запросов, чтобы направить модель к нежелательным выводам.

Ненадежность данных обучения
Качество и разнообразие данных, используемых для обучения моделей языка, имеют решающее значение. Если набор данных содержит предвзятые, неточные или устаревшие сведения, модель может усвоить и воспроизвести эти недостатки. Это может привести к распространению дезинформации или принятию ошибочных решений на основе неточных выводов модели.

Риски, связанные с конфиденциальностью
Большие языковые модели могут случайно запоминать и раскрывать конфиденциальную информацию, с которой они сталкивались во время обучения. Это явление известно как "утечка данных". Злоумышленники могут попытаться извлечь чувствительную информацию из модели, используя тщательно разработанные запросы. Защита конфиденциальности пользователей и обеспечение того, чтобы модели не раскрывали личную информацию, являются важными задачами в области безопасности.

Манипуляция моделями
Существует риск того, что злоумышленники могут манипулировать моделями языка, чтобы они выдавали предвзятые или желаемые ответы. Это может быть достигнуто путем внедрения вредоносных шаблонов в процесс обучения или использования методов адверсарного машинного обучения. Такие атаки могут подорвать целостность выводов модели и привести к серьезным последствиям в таких областях, как правосудие, финансы или здравоохранение.

Автоматизация вредоносных действий
LLM могут автоматизировать задачи, связанные с кибербезопасностью, как для защитников, так и для нападающих. С одной стороны

Риски безопасности, связанные с LLM, включают:

Отравление обучающих данных: Умышленное внедрение неверной или злонамеренной информации в обучающие данные модели. Серьёзная угроза для моделей, обученных на больших наборах данных, собранных из открытых источников.
Утечка конфиденциальной информации: риск того, что модель раскрывает конфиденциальные данные, связанные с обучающими данными, в своих ответах. Феномен запоминания может привести к тому, что модели будут воспроизводить обучающие данные дословно.
Галлюцинация: Модель генерирует ложную информацию, которая вводит в заблуждение при принятии решений по безопасности. Сгенерированные ошибочные отчеты о безопасности, способные ввести в заблуждение аналитиков SOC, представляют серьезный риск.
Чрезмерные привилегии: Предоставление ЛВМ более широких прав доступа к API, базам данных или файловым системам, чем это необходимо. Когда агент ЛВМ имеет права на чтение, запись и доступ в интернет одновременно, любая из этих возможностей может быть использована во вред через инъекцию запросов.
Риски цепочки поставок: Уязвимости, возникающие через плагины для ЛЛМ сторонних разработчиков или наборы данных для тонкой настройки.

В 2023 году проект Open Web Application Security Project (OWASP) опубликовал специальный список Top 10 для приложений на основе больших языковых моделей (LLM). В этом списке инъекция запросов (prompt injection) занимает первое место среди рисков, и разработчикам рекомендуют такие меры, как проверка входных данных, фильтрация выходных данных и принцип наименьших привилегий.

Проблемы предвзятости и справедливости в машинном обучении

Что такое алгоритмический биас?

Предвзятость в моделях машинного обучения возникает из-за недостатков в обучающих данных или дизайне алгоритмов, что приводит к несправедливым результатам для различных демографических групп. Эта проблема особенно значима в области кибербезопасности: системы распознавания лиц демонстрировали более низкие показатели точности для определенных расовых групп; модели оценки кредитного риска обнаружились использующими защищенные характеристики, такие как пол или этническая принадлежность; а алгоритмы подбора персонала принимали решения, противоречащие историческим тенденциям.

В 2018 году исследование, проведенное Джой Буоламвини и Тимнит Гебру в Медиа-лаборатории MIT, показало, что три основные системы распознавания лиц имели показатели ошибок до 34,7% для темнокожих женщин, в то время как для светлокожих мужчин этот показатель снижался до 0,8%. Такие предубеждения могут привести к серьезным несправедливостям в системах видеонаблюдения, приложениях контроля доступа и цифровых судебных инструментах.

Объяснимая искусственная интеллект (XAI)

Объяснимый ИИ (XAI) — это набор методов и подходов, которые делают процессы принятия решений машинными обучающими моделями понятными для людей. В кибербезопасности XAI играет критически важную роль: если аналитик не может понять, почему система SIEM помечает определённое событие как угрозу, он не сможет принять правильное решение о вмешательстве.

К ключевым техникам ИПВ относятся:

LIME (Local Interpretable Model-Agnostic Explanations): Предоставляет интерпретируемую альтернативную модель для приближения локального поведения любой заданной модели.
SHAP (SHapley Additive exPlanations): Этот метод, вдохновленный теорией игр, рассчитывает вклад каждой характеристики в предсказания модели.
Механизмы внимания: В моделях на основе трансформеров механизмы внимания визуализируют, на какие элементы входных данных фокусируется модель.
Контрфактуальные объяснения: Предоставляйте объяснения, отвечающие на вопрос «что должно было бы измениться, чтобы изменился прогноз?».

Статья 22 GDPR и Закон ЕС о искусственном интеллекте налагают обязательства по использованию объяснимого ИИ (XAI) в высокорисковых автоматизированных решениях. Это сделало XAI юридическим требованием, а не просто техническим предпочтением.

OWASP (Open Web Application Security Project) и рамочная программа управления рисками ИИ NIST (Национальный институт стандартов и технологий США) представляют собой два важных подхода к обеспечению безопасности искусственного интеллекта.

OWASP AI Security — это проект, направленный на повышение осведомленности о проблемах безопасности, связанных с ИИ, и предоставление практических рекомендаций по их решению. Он фокусируется на выявлении и смягчении рисков, связанных с использованием ИИ в веб-приложениях, включая машинное обучение, обработку естественного языка и другие технологии ИИ. OWASP предлагает набор руководств, инструментов и ресурсов для разработчиков и организаций, чтобы помочь им безопасно разрабатывать и внедрять системы ИИ.

NIST AI Risk Framework — это всеобъемлющая структура, предназначенная для управления рисками, связанными с ИИ-системами на протяжении всего их жизненного цикла. Она обеспечивает систематический подход к идентификации, оценке и управлению рисками, связанными с ИИ, включая этические соображения, предвзятость данных, конфиденциальность и безопасность. Рамочная программа NIST помогает организациям принимать обоснованные решения при разработке, развертывании и использовании систем ИИ.

Оба подхода дополняют друг друга, предлагая практические рекомендации и структурированную систему для обеспечения того, чтобы ИИ-системы были надежными, безопасными и соответствовали этическим стандартам. Они являются ценными ресурсами для специалистов по безопасности, разработчиков и организаций, стремящихся к ответственному развитию и использованию искусственного интеллекта.

OWASP AI Top 10 перечисляет критические риски безопасности в приложениях искусственного интеллекта, охватывая такие темы, как отравление данных, уклонение от моделей, враждебные атаки, риски цепочки поставок и недостаточная объяснимость моделей.

Рамочная модель управления рисками искусственного интеллекта NIST (AI RMF) предоставляет всестороннюю основу для организаций по управлению рисками в их системах ИИ. Она включает четыре ключевые функции:

Управление: Установление организационных политик и процессов для управления рисками ИИ.
Карта: Идентификация рисков и последствий использования систем искусственного интеллекта.
Мера: Оценка рисков с использованием количественных и качественных методов.
Управление: реализация стратегий по смягчению выявленных рисков.

Эта платформа направлена на разработку систем искусственного интеллекта, которые являются надежными, справедливыми, прозрачными, понятными и защищающими конфиденциальность.

Закон Европейского Союза о искусственном интеллекте: новая эра регулирования

Закон ЕС о искусственном интеллекте, который должен вступить в силу в 2024 году, является первым в мире всеобъемлющим законом о регулировании искусственного интеллекта. Этот закон классифицирует системы искусственного интеллекта по уровням риска:

Неприемлемый риск: Приложения, такие как социальная оценка, подсознательная манипуляция и удаленная биометрическая идентификация в реальном времени, полностью запрещены.
Высокий риск: ИИ-системы, используемые в таких областях, как биометрическая идентификация, критически важная инфраструктура, образование, занятость, основные услуги и правоохранительная деятельность, подлежат строгому регулированию.
Ограниченный риск: Обязательства по прозрачности применяются к таким системам, как чат-боты; пользователи должны знать, что они общаются с системой ИИ.
Минимальный риск: Для приложений с низким уровнем риска, таких как фильтры спама, не применяются дополнительные обязательства.

Закон ЕС о искусственном интеллекте вводит требования, такие как оценка рисков для систем ИИ высокого риска, управление данными, техническая документация, прозрачность, контроль со стороны человека и надежность. Компании, не соблюдающие эти требования, могут столкнуться с штрафами до 3% от их глобального оборота. В сочетании с GDPR это можно рассматривать как лидерство Европы в области цифровых прав.

Автономное оружие и проблема выравнивания ИИ

Споры вокруг автономных систем вооружения

Использование искусственного интеллекта в военной сфере, особенно в автономных летальных системах оружия (АЛСО), вызывает глубокие этические дебаты. Передача решений о жизни и смерти алгоритму поднимает серьезные вопросы о ответственности, пропорциональности и принципе различения. Комитет ООН по Конвенции о конкретных видах обычного оружия продолжает переговоры по созданию регуляторной базы для АЛСО; однако конфликты интересов между крупными державами затрудняют прогресс.

Проблема выравнивания ИИ

Проблема выстраивания АИ (alignment) относится к необходимости создания АИ-систем, которые будут соответствовать человеческим ценностям и намерениям. Эта проблема особенно критична в контексте безопасности: сценарии, в которых АИ системы центра оперативного реагирования (SOC) неправильно интерпретируют цель «минимизировать угрозы» и прерывают все внешние соединения, или в которых агентство киберзащиты принимает непропорциональные меры для отключения инфраструктуры атакующего, не являются теоретическими, а представляют реальную опасность.

Как подробно обсуждает Стюарт Рассел в своей книге «Человеческая совместимость», системы искусственного интеллекта должны разрабатываться таким образом, чтобы сохранять неопределенность относительно человеческих предпочтений, учиться у людей и поддерживать человеческий надзор. Техники, такие как обучение с подкреплением по обратной связи от человека (RLHF) и конституционный ИИ, были разработаны для лучшего соответствия больших языковых моделей (LLM) человеческим ценностям.

Ответственное ИИ и автоматизация SOC

Ответственные практики в области искусственного интеллекта

Ответственное использование искусственного интеллекта (ИИ) подразумевает соблюдение этических, правовых и общественных ценностей на всех этапах разработки и применения систем ИИ. Практика ответственного ИИ в контексте безопасности включает следующее:

Ред-тестирование: Проведение тестов безопасности моделей ИИ путем моделирования сценариев атак. Такие компании, как OpenAI и Anthropic, подвергают свои модели обширным процессам ред-тестирования перед выпуском.
Аудит предвзятости: регулярная проверка того, работают ли алгоритмы справедливо для различных демографических групп.
Карточки моделей: документы, в которых описываются возможности, ограничения и известные риски каждой модели ИИ. Google и Hugging Face способствовали стандартизации этой практики.
Непрерывный мониторинг: Мониторинг производительности и безопасности развернутых моделей в производстве (MLOps).

Преобразование операций SOC с помощью ИИ

Современные операции в ЦОБ (Центр управления безопасностью) претерпевают глубокую трансформацию благодаря интеграции искусственного интеллекта. В традиционной модели ЦОБ аналитики проводили свои дни за проверкой тысяч оповещений, подавляющее большинство из которых были ложными срабатываниями, и были перегружены ими. Автоматизация ЦОБ на основе ИИ меняет эту картину:

Большая часть работы первого уровня (триаж оповещений, обогащение IoC, первоначальная оценка) автоматизируется. Playbook-и SOAR теперь создают процессы от начала до конца, которые закрывают рутинные инциденты без участия человека. Инструменты естественного языкового сопровождения безопасности, такие как Microsoft Copilot для безопасности и Chronicle SecOps, повышают производительность аналитиков при написании запросов и составлении отчетов. Эта трансформация позволяет аналитикам сосредоточиться на более ценной работе, такой как сложный поиск угроз, разработка стратегий и тонкая реакция на инциденты.

Взгляд в будущее: новые горизонты в ИИ и кибербезопасности

Будущее влияние искусственного интеллекта на кибербезопасность будет определяться следующим:

Сражение ИИ против ИИ: постоянная эволюционная гонка между атакующими и защищающимися ИИ-системами. В этой динамике преимущество будет на стороне систем, которые адаптивно и в реальном времени учатся, а не у тех, кто выпускает последние статические модели.
Сохранение конфиденциальности при получении информации об угрозах с помощью федеративного обучения: Различные организации смогут создавать совместные модели угроз без обмена своими базовыми данными. Этот подход позволяет им защищать конфиденциальность, одновременно используя коллективную разведку.
Пересечение квантовых вычислений и искусственного интеллекта: Квантовые компьютеры, ускоряющие алгоритмы ИИ, усилят как наступательные, так и оборонительные возможности. Постквантовая криптография (стандарты NIST) и устойчивые к квантовым угрозам системы ИИ являются критически важными направлениями развития в этой области.
Многомодальная безопасность ИИ: Многомодельные модели, обрабатывающие текст, голос, изображения и код одновременно, принесут совершенно новые проблемы безопасности.

Заключение

Искусственный интеллект — это обоюдоострый меч в области кибербезопасности. Он революционизирует такие сферы, как обнаружение аномалий, анализ вредоносного ПО и автоматизированный ответ на кибератаки с оборонительной стороны, но также порождает новые угрозы, такие как глубокие фейки, адверсарные атаки и фишинг с использованием ИИ с атакующей стороны. Техники, подобные FGSM и PGD, демонстрируют, насколько уязвимыми могут быть основанные на ИИ системы безопасности. Безопасность больших языковых моделей (LLM) создает новые проблемы, такие как инъекция запросов, отравление данных и «отброс» (jailbreaking). Предвзятость в машинном обучении и необходимость объяснимости (XAI) вызывают этические и правовые опасения. Регуляторные рамки, такие как Закон о искусственном интеллекте ЕС и Рамочная программа управления рисками ИИ NIST, являются важными шагами к управлению этими рисками, но всегда будет сложно поспевать за темпами технологических изменений. Соблюдение принципов ответственного ИИ, усиление взаимодействия человек-машина и постоянное обновление знаний — ключи к успеху в этой сфере.

Искусственный интеллект и безопасность: возможности, угрозы и будущее