ISO 24614-1:2010 Управление языковыми ресурсами. Сегментация письменных текстов по словам. Часть 1. Основные понятия и общие принципы. - Стандарты и спецификации PDF

ISO 24614-1:2010
Управление языковыми ресурсами. Сегментация письменных текстов по словам. Часть 1. Основные понятия и общие принципы.

Стандартный №
ISO 24614-1:2010
Дата публикации
2010
Разместил
International Organization for Standardization (ISO)
состояние
Последняя версия
ISO 24614-1:2010
сфера применения
В этой части ISO 24614 представлены основные концепции и общие принципы сегментации слов, а также представлены независимые от языка рекомендации, позволяющие надежно и воспроизводимо сегментировать письменные тексты на единицы сегментации слов (WSU). ПРИМЕЧАНИЕ 1. В исследованиях и промышленности, связанных с языком, слово является фундаментальным и необходимым понятием. Таким образом, крайне важно иметь универсальное определение того, что включает в себя слово, для целей сегментирования текста на слова. Нельзя просто использовать правила, основанные только на пробелах и пунктуации, для разделения слов. Такие правила не учитывают такие ситуации, как соединения через дефис, аббревиатуры, идиомы или словесные выражения, содержащие символы или цифры. Сегментация слов еще более проблематична для языков, которые не используют пробелы для разделения слов, таких как китайский и японский, а также для агглютинативных языков, где некоторые функциональные классы слов реализованы как аффиксы, например корейский. Многие приложения и поля, в которых необходимо сегментировать тексты на слова (и, следовательно, к которым может применяться данная часть ISO 24614), включают следующее.

ISO 24614-1:2010 История

  • 2010 ISO 24614-1:2010 Управление языковыми ресурсами. Сегментация письменных текстов по словам. Часть 1. Основные понятия и общие принципы.



© 2023. Все права защищены.