| Параметры возможностей | Унимодальные индикаторы | Мультимодальные индикаторы | Точки инноваций |
|---|---|---|---|
| Способность понимания | 19 пунктов, включая текст/изображение/аудио | 12 пунктов, включая графику/текст/текст и аудио | Создание многомодальной унифицированной структуры оценки впервые |
| Способность генерации | 7 пунктов для текста | 8 пунктов включая графику/текст/текст и аудио | Охватывает весь сценарий от генерации кода до синтеза видео |
Стандарт требует, чтобы модели обладали пятью возможностями, включая извлечение ключевых слов и извлечение взаимосвязей. В финансовых приложениях эти модели должны достигать базового уровня точности ≥ 85% и полноты ≥ 80%.
Оценка охватывает распространённые языки программирования, такие как Python и Java, требующие, чтобы сгенерированный код прошёл проверку синтаксиса и модульное тестирование. Типичный пример показывает, что бизнес-модели достигают 72% успеха с первого раза при решении задач LeetCode среднего уровня.
| Этапы | Ключевые действия | Требования к инструментам |
|---|---|---|
| Фаза подготовки | Определение базовых/расширенных возможностей в соответствии с таблицей 3 | Инструменты тестирования API/Инструменты веб-автоматизации |
| Фаза выполнения | Возьмите среднее значение 3 повторных тестов | Поддержка расчета таких показателей, как BLEU/Ruge |
| Фаза оценки | Ручной просмотр + кросс-валидация большой модели | Система оценки MOS |
По сравнению с В проекте 2023 года основные достижения этого стандарта отражены в:

© 2026. Все права защищены.