- 142
VaultGemma: Конфиденциальная языковая модель Google
Google представила первый конфиденциальный ИИ-модель: VaultGemma
Google сделала важный шаг в сфере искусственного интеллекта, представив первую крупную языковую модель с упором на конфиденциальность – VaultGemma. Она использует дифференциальную приватность, чтобы минимизировать риск «запоминания» обучающих данных.
Проблема ИИ и приватности
Разработка больших языковых моделей (LLM) осложняется поиском качественных данных. При сборе информации из интернета в модель могут случайно попасть чувствительные пользовательские данные, что ведёт к утечкам.
Кроме того, LLM иногда могут дословно повторять обучающий материал, что нарушает как конфиденциальность, так и авторские права.
Как работает дифференциальная приватность?
Метод добавляет в процесс обучения случайный шум, уменьшая вероятность того, что модель «запомнит» данные. Но при этом страдает точность и вычислительная эффективность.
Команда Google Research показала, что правильный баланс шума и данных сохраняет производительность. Результатом стала модель VaultGemma.
Как создана VaultGemma?
Модель основана на Gemma 2, имеет около 1 миллиарда параметров и показывает конкурентоспособные результаты по сравнению с аналогичными моделями без приватности.
Учёные отмечают, что дифференциальная приватность эффективнее работает в небольших LLM, созданных для узких задач.
Доступность
VaultGemma выпущена как открытая модель. Её можно скачать и изменять, соблюдая лицензионные ограничения и правила использования.
Она доступна на Hugging Face и Kaggle.