GB/T 45288.2-2025
Большая модель искусственного интеллекта, часть 2: метрики и методы оценки (Англоязычная версия)

Стандартный №: GB/T 45288.2-2025
язык: Китайский, Доступно на английском
Дата публикации: 2025
Разместил: General Administration of Quality Supervision, Inspection and Quarantine of the People‘s Republic of China
Последняя версия: GB/T 45288.2-2025

сфера применения

Анализ стандартной базовой структуры

Параметры возможностей	Унимодальные индикаторы	Мультимодальные индикаторы	Точки инноваций
Способность понимания	19 пунктов, включая текст/изображение/аудио	12 пунктов, включая графику/текст/текст и аудио	Создание многомодальной унифицированной структуры оценки впервые
Способность генерации	7 пунктов для текста	8 пунктов включая графику/текст/текст и аудио	Охватывает весь сценарий от генерации кода до синтеза видео

Подробное объяснение ключевых технических индикаторов

5.1.3 Возможности извлечения информации

Стандарт требует, чтобы модели обладали пятью возможностями, включая извлечение ключевых слов и извлечение взаимосвязей. В финансовых приложениях эти модели должны достигать базового уровня точности ≥ 85% и полноты ≥ 80%.

5.2.7 Возможности генерации кода

Оценка охватывает распространённые языки программирования, такие как Python и Java, требующие, чтобы сгенерированный код прошёл проверку синтаксиса и модульное тестирование. Типичный пример показывает, что бизнес-модели достигают 72% успеха с первого раза при решении задач LeetCode среднего уровня.

Методология реализации оценки

Этапы	Ключевые действия	Требования к инструментам
Фаза подготовки	Определение базовых/расширенных возможностей в соответствии с таблицей 3	Инструменты тестирования API/Инструменты веб-автоматизации
Фаза выполнения	Возьмите среднее значение 3 повторных тестов	Поддержка расчета таких показателей, как BLEU/Ruge
Фаза оценки	Ручной просмотр + кросс-валидация большой модели	Система оценки MOS

Стандартные рекомендации по внедрению

Подготовка данных: Рекомендуется использовать смешанный набор данных, при этом доля данных с открытым исходным кодом должна составлять не более 40%, и необходимо включить корпуса в таких профессиональных областях, как медицина и юриспруденция.
Конфигурация среды: Видеопамять GPU ≥ 32 ГБ, поддержка точных вычислений FP16 и требование к задержке < 500 мс/запрос.
Проверка результатов: Ключевые бизнес-сценарии должны сочетать использование объективных методов A.1 и субъективных оценок A.2.

Анализ развития технологий

По сравнению с В проекте 2023 года основные достижения этого стандарта отражены в:

Добавлены шесть мультимодальных индикаторов, включая аудио- и видеовопросы и ответы
Оптимизированы параметры оценки понимания длинного текста и введены требования к анализу структуры абзацев.
Включена этическая оценка в систему оценки MOS (см. Таблицу A.1 Параметр вредоносности)

GB/T 45288.2-2025 Ссылочный документ

GB/T 42755-2023 Процедура маркировки данных, ориентированная на искусственный интеллект, для машинного обучения
GB/T 45288.1 Искусственный интеллект: Большие модели, Часть 1: Общие требования*， 2026-06-20 Обновление

GB/T 45288.2-2025 История

2025 GB/T 45288.2-2025 Большая модель искусственного интеллекта, часть 2: метрики и методы оценки

Специальные темы по стандартам и нормам

модель искусственного интеллекта

стандарты и спецификации

GB/T 45288.2-2025 - Все части

GB/T 45288.1-2025(英文版) Искусственный интеллект: Большие модели, Часть 1: Общие требования GB/T 45288.2-2025(英文版) Большие модели искусственного интеллекта, часть 2: Метрики и методы оценки GB/T 45288.3-2025(英文版) Искусственный интеллект Крупные модели Часть 3: Оценка зрелости сервисных возможностей

GB/T 45288.2-2025Большая модель искусственного интеллекта, часть 2: метрики и методы оценки (Англоязычная версия)