Операционная система ЗОСРВ «Нейтрино» > Руководство разработчика > Основные принципы системной разработки > Обработчики прерываний > Критические потоки реального времени

Критические потоки реального времени

Рассматриваются назначение, способы создания и границы применимости критических потоков реального времени (CRTT)

Поддерживается, начиная с ЗОСРВ «Нейтрино» редакции 2024

Содержание статьи:

Назначение и особенности

Синтетический пример

Ограничения и управление рисками

Сценарии использования

Глобальные критические секции

Системообразующие потоки особой важности

Потоки «последней надежды»

Безопасные ISR с уменьшенным временем отклика

Назначение и особенности

При проектировании обработчиков прерываний разработчик делает непростой выбор между классической функцией обработки прерываний ( ISR) и потоком. В первом случае на обработчик накладываются функциональные ограничения, поскольку выполнение кода в контексте ядра сопряжено с определенными рисками, во втором случае при обработке прерывания возникают дополнительные задержки (latency). Их природа раскрыта в разделе задержка обработки прерываний и задержка планирования.

Потенциальные риски классического ISR связанны с ошибками в обработчике. В самом худшем случае это чревато падением ядра или плохо диагностируемыми проблемами. Обработка прерываний в потоке гораздо безопаснее, поскольку не сопряжена с общесистемными последствиями, но код в этом случае вынужден бороться за вычислительный ресурс с различными ISR (которые обладают более высоким приоритетом, чем любой поток), вытеснениями при перепланировании и более приоритетными потоками системы.

В случае, если выполнение критически важной работы пересекается с логикой обработки прерываний, начиная с редакции 2024, разработчикам доступен альтернативный механизм, который называется критическими потоками реального времени (для краткости CRTT от англ. Critical Real-Time Threads). Они являются чем-то средним между ISR и потоком и, в общем случае, сочетают их преимущества. Но, ввиду своей дуалистической природы, использование CRTT все-таки не лишено некоторых рисков.

Достоинства:

Критический поток реального времени потребляет вычислительные ресурсы согласно штатным механизмам вытесняющего планирования, реализованным в ЗОСРВ «Нейтрино».
Квалификатор критического потока действует только в пределах процессорного ядра, на котором этот поток выполняется в конкретный момент и, после миграции на другое ядро, сохраняется за ним.
Ошибки в CRTT не способны выводить ядро ОС из строя и локализуются в пределах процесса, которому принадлежит данный поток.
В CRTT доступны все механизмы межпроцессного взаимодействия (IPC), примитивы синхронизации и функции отладочной печати, используемые в обычном потоке (подробнее см. Безопасность использования функций).
Критический поток реального времени может быть привязан к конкретным процессорным ядрам (см. thread affinity).
В общем случае, для критического потока реального времени характерно уменьшение как задержки при получении управления (latency), так и числа переключений контекста (т.е. снижается общее время отклика на внешнее событие).
В некоторых случаях использование критического потока реального времени может приводить к повышению производительности отдельных операций.
CRTT обладают способностью конкурировать за вычислительные ресурсы с классическими ISR.
Критический поток реального времени имеет два уровня приоритета: обычный приоритет планирования и отдельный приоритет для конкуренции с ISR (см. параграф "Синтетический пример").
Поскольку CRTT реализованы аппаратно, существуют платформы и архитектуры, где их поддержка временно отсутствует или не осуществима в принципе (подробнее см. описание опции -z микроядра).

Недостатки:

Злоупотребление квалификатором CRTT может приводить к потенциальному увеличению latency для обычных потоков и низкоприоритетных ISR, а в особых случаях оказывать негативное общесистемное воздействие в виде снижения интерактивности.
Поскольку существенная часть драйверного обеспечения разрабатывалась до появления концепции критических потоков реального времени, могут существовать модули ОС, чьи ISR не рассчитаны на активное применение CRTT. Это требует более ответственного подхода к проектированию и тестированию конечных систем.
Даже несмотря на то, что вероятность допущения фатальных для системы ошибок в CRTT в целом меньше, чем в ISR, во избежание возможных негативных общесистемных последствий использование CRTT рекомендуется только высококвалифицированным разработчикам.

Отличия от реализации обычных потоков:

Квалификатор не наследуется дочерними потоками.
При выполнении протоколов наследования приоритетов квалификатор не назначается другим потокам, которые участвуют в IPC. Иными словами, защита от инверсии приоритетов распространяется лишь на потоковый компонент приоритета CRTT, но не на его ISR-составляющую. Данное обстоятельство не является критичным, поскольку доступные варианты IPC между ISR и потоками обладают встроенной защитой от инверсий приоритетов.

Синтетический пример

На следующем скриншоте представлен фрагмент системной трассы, полученной с помощью TraceKev:

Рисунок 1. Системная трасса исполнения обычного потока

Рассмотрим этот вырожденный, но наглядный пример, поясняющий логику реализации CRTT:

С внешнего узла запускается пинг-флуд на устройство под управлением ЗОСРВ «Нейтрино».
В системе присутствуют следующие значимые прерывания:
- IRQ сетевой карты (IRQ1) – высокочастотное прерывание со средним приоритетом (3), генерируемое контроллером прерываний на 1-ое процессорное ядро.
- IRQ системного таймера (IRQ2) – высокочастотное прерывание с высоким приоритетом (5), генерируемое на 0-ое процессорное ядро.
- IRQ интерфейса I2C (IRQ3) – низкочастотное прерывание с приоритетом (2), генерируемое на 1-ое процессорное ядро.
В системе присутствуют следующие обработчики прерываний:
- ISR драйвера сетевой карты (ISR1).
- ISR тестовой программы, ассоциированный с прерыванием сетевой карты и считающий их число (ISR2).
- ISR, ассоциированные с системным таймером (ISR3).
- ISR драйвера I2C (ISR4).
Тестовое приложение регистрирует ISR2, считающий сетевые прерывания, 10 сек. выполняет абстрактные вычисления и выводит значение счетчика.
Исследуемый поток тестовой программы на иллюстрациях представлен последней трассой событий. Он привязан к 1-му процессорному ядру и синтезирует вычислительную нагрузку.
Остальные трассы представляют низкоприоритетные прикладные потоки.

Можно заметить, что интересующий поток регулярно вытесняется более приоритетным кодом. Это следует из степени дискретности трассы потока на графике. Из условий эксперимента следует, что это вызвано влиянием IRQ1 и IRQ3, которые маршрутизируются контроллером прерываний на 1-ое процессорное ядро.

Подобное поведение и регулярные вытеснения вполне типичны для любой системы, особенно при высокой нагрузке. В сочетании с вытеснениями от более приоритетных потоков, эти факторы влияют на величину задержки (latency) произвольного потока. По завершении дпнного эксперимента счетчик прерываний будет содержать вполне предсказуемое значение, превышающее ~100 000.

Теперь повторим эксперимент, запустив ядро с опцией -z и обозначив целевой поток в качестве критического потока реального времени с помощью вызова ThreadCtl():

uint8_t isr_prio = 3;
ThreadCtl( _NTO_TCTL_ISR_LEVEL_SET, (void *)isr_prio );    /* Поток должен обладать привилегиями суперпользователя */

На следующем скриншоте показан эквивалентный фрагмент системной трассы после внесения вышеуказанных изменений:

Рисунок 2. Системная трасса исполнения критического потока реального времени

Можно выделить следующие существенные отличия:

Во время исполнения CRTT не получают процессорного времени никакие ISR, приоритет прерываний которых ниже, чем значение isr_prio (это и есть дополнительный приоритет потока для конкуренции с ISR).
Исключены все факторы, которые могли вызвать вытеснение CRTT.
Прерывания от таймера продолжают поступать и выполняются соответствующие ISR.
Счетчик прерываний теста будет иметь нулевое значение.

Почему так происходит?

Для CRTT настраивается автоматическое маскирование и размаскирование прерываний, чей приоритет не выше isr_prio. Оно будет осуществляться каждый раз при переключении контекста. Поскольку в данном сценарии критический поток реального времени может быть вытеснен только ISR, его трасса становится абсолютно непрерывной. А поскольку счетчик прерываний в тесте был привязан именно к маскируемому прерыванию, основания для его увеличения также отсутствуют.

Продолжение обработки прерываний от таймера объясняется достаточно просто: функциональность критического потока реального времени распространяется лишь на процессорное ядро, на котором он выполняется в текущий момент времени. Поскольку в рамках thread affinity для CRTT настроена привязка к 1-му процессорному ядру, то его миграция на иные ядра не осуществляется. Как было оговорено в начале эксперимента, прерывание таймера ассоциировано с 0-ым процессорным ядром и автоматические маскирования его не затрагивают.

Ограничения и управление рисками

Несмотря на то, что критические потоки реального времени, не могут нарушать целостность ядра ОС (в отличие от классических ISR), их следует применять с соблюдением строгих мер предосторожности и ответственного подхода. Разработчикам настоятельно рекомендуется ознакомиться с настоящим параграфом перед проектированием систем, использующих CRTT.

Злоупотребление критическими потоками реального времени может оказывать негативное (с точки зрения latency) общесистемное воздействие на все остальные потоки в системе. Сюда можно включить как длительное исполнение CRTT на одном и том же процессорном ядре, так и их массовое порождение. Это вполне очевидно, поскольку наделение потоков дополнительными преимуществами, это происходит за счет ущемления других потребителей этого ресурса. Таким образом, для порождения критических потоков должны существовать веские основания. Особенно если для их выполнения требуется значительная доля процессорного времени.

Применение CRTT, допустимо только при понимании общей логики работы контроллера прерываний и маршрутизации / приоритизации IRQ в конкретной проектируемой системе. Маршрутизация прерываний настраивается в модуле startup-*, причем, по умолчанию все прерывания маршрутизируются на 0-ое процессорное ядро и имеют одинаковый приоритет, кроме прерывания таймера, которое имеет повышенный приоритет, поскольку является источником общесистемного тактирования. Определять и устанавливать конкретные уровни приоритетов IRQ можно установить лишь путем анализа исходного кода модуля startup-*. Без сведений об этих приоритетах невозможно спроектировать предсказуемую систему, соответствующую генеральному дизайну. Появление CRTT, не согласованного с архитектурой системы, приведет лишь к многочисленным и сложно диагностируемым проблемам.

Из предыдущей рекомендации прямо вытекает недопустимость длительного маскирования прерываний таймера средствами CRTT (впрочем, как и любыми иными способами) ― осознанно или из-за недостаточно тщательного анализа конфигурации. Данный шаг может рассматриваться лишь как вмешательство в функционирование ядра ОС.

При длительном маскировании прерываний могут проявляться неочевидные особенности драйверов, которые проектировались без расчета на присутствие CRTT в системе. В общем случае это не является дефектом и требует лишь более тщательного распределения вычислительных ресурсов между потоками и настройки маршрутизации / приоритизации прерываний. Тем не менее, в отдельных случаях действительно может быть выполнена доработка конкретного драйвера.

Ошибки проектирования, которые вызывают конфликт между CRTT и другими важными процессами, могут приводить к нарушению ожидаемых временных характеристик этих процессов. Это не противоречит базовым принципам систем реального времени и устраняется посредством углубленного анализа архитектуры и конфигурации системы на этапе ее проектирования, поскольку лишь разработчик конечной системы определяет относительную важность тех или иных процессов. ОС лишь предоставляет различные механизмы, но не диктует обязательность их применения.

Сценарии использования

Предыдущий параграф призван обозначить риски, разработчику конечной системы следует сопоставлять с потенциальной пользой от применения CRTT.

В дальнейшем изложении мы исходим из того, что разработчик системы изучил параграф "Ограничения и управление рисками".

Рассмотрим несколько вариантов использования CRTT для решения практических задач.

Глобальные критические секции

Несмотря на то, что этот способ применения представляется наиболее очевидным, он является далеко не самым востребованным. В тоже время, критические секции в потоке можно организовывать гораздо более простыми методами, применение которых крайне редко требуется масштабировать до общесистемного уровня. Однако, название CRTT произошло именно от этого способа применения.

В данном случае речь идет о создании невытесняемого кода, исполняемого на процессоре. В отличие от обычных примитивов синхронизации, такой код можно глобально синхронизировать как с другими потоками, так и с ISR. Оправданны ли в данном случае издержки – вопрос риторический.

С другой стороны, путем создания критической секции такого рода, можно жестко смещать баланс потребления вычислительных ресурсов в пользу CRTT для повышения производительности отдельных операций. Безусловно, это будет ущемлять как интересы других потребителей (latency), так и общую отзывчивость системы. Однако последнее не является значимым фактором для систем реального времени, что их фундаментально отличает от систем общего назначения.

Несмотря на ограниченную востребованность описанного подхода, с точки зрения архитектурных возможностей ОС, он имеет полное право на существование.

Системообразующие потоки особой важности

Во многих системах реального времени существуют как задачи (потоки), которые являются системообразующим, так и исполняющие вторичные, чисто утилитарные, функции. Задачи первого класса можно условно отнести к домену реального времени, который подлежит строгому контролю и анализу со стороны разработчика, а вторые должны получать вычислительный ресурс по остаточному принципу.

Стоит отдельно отметить, что для ядра ОС все потоки являются одноранговыми потоками реального времени, облада.щими разными приоритетами. Наделение их той или иной значимостью появляется лишь на этапе проектирования конечной системы исходя из возлагаемых на них функций. Такой информацией ядро ОС не располагает.

Среди задач из домена реального времени, очевидно, могут найтись такие, значимость которых для системы является преобладающей. При реализации в качестве критических потоков реального времени появляется архитектурная возможность изолировать их от избыточного влияния остального системного кода и даже устройств периферии. Достигается это лишь обоснованным выбор уровней приоритетов планирования и автоматически маскируемых прерываний.

Потоки «последней надежды»

Развивая идею предыдущего сценария, можно смоделировать ситуацию, при которой эндосистемные сервисы диагностики и превентирования критических ситуаций смогли обнаружить фатальное событие. В этом случае от системы может потребоваться обеспечение управляемости ключевым системообразующим процессом (или процессами, если процессорных ядер больше одного), ради которого она проектировалась. Это прямое воплощение базового требования к системам реального времени – самая важная задача должна исполняться во что бы то ни стало (ОС должна создавать для этого условия).

В этом случае, в качестве отчаянного шага система может породить или заранее подготовить CRTT, который переведет процессорное ядро в режим линейного исполнения кода:

CRTT устанавливает себе максимальный приоритет обработки IRQ, запрещая исполнение любых ISR в системе (включая прерывание таймера).
При условии отсутствия системных вызовов, легко достижимо глобально линейное исполнение кода без вытеснений и перепланирований вычислительного ресурса. Скрупулезная реализация этого подхода позволяет обеспечить экстремальное управление системообразующим процессом с максимальной степенью детерминизма.
Поскольку это выполняется лишь одним системным вызовом, перехват управления осуществляется практически мгновенно – с момента получения управления этим потоком и исполнения ThreadCtl( _NTO_TCTL_ISR_LEVEL_SET ).

Следует повторно отметить, что этот шаг приводит к необратимой потере управления со стороны ОС. Однако, поскольку моделируется чрезвычайная ситуация, которую не смогла предотвратить проектируемая система, указанные меры реагирования на неё могут представляться обоснованными и сомасштабными.

Безопасные ISR с уменьшенным временем отклика

Еще один вариант применения критических потоков реального времени – безопасная обработка IRQ в потоке с минимальным временем отклика. Под временем отклика понимается интервал времени от возникновения внешнего события, до завершения его обработки – он включает как задержку (latency) при начале отработки, так и время реакции на событие. На оба компонента в полной мере влияет выполнение более приоритетных потребителей вычислительного ресурса. Применение CRTT может позитивно сказаться на обоих факторах, составляющих время отклика.

В рассматриваемом случае является желательным, хотя и не обязательным, привязка IRQ и CRTT к одному процессорному ядру. В зависимости от приемлемости накладных расходов, обусловленных межпроцессорными коммуникациями.

Пример минимального CRTT, выполняющего роль безопасного ISR:

#incldue <sys/siginfo.h>
#include <sys/neutrino.h>
    
int main( int argc, char** argv )
{
    struct sigevent event;
    int             id,
                    irq   = ???;
    uint8_t         level = ???;
        
    /* Получение прав на регистрацию ISR */
    if ( ThreadCtl( _NTO_TCTL_IO, 0 ) == -1 )
        return (EXIT_FAILURE);
        
    /* Установка нового порога срабатывания прерываний */
    if ( ThreadCtl( _NTO_TCTL_SET_ISR_LEVEL, (void *)level ) == -1 )
        return (EXIT_FAILURE);
        
    /* Регистрация неявного ISR (поскольку мы не хотим иметь даже теоретическую возможность нарушить
     * работу ядра ОС, приемлемым остается лишь получение уведомлений о прерываниях).
     *
     * Поскольку это событие только разблокирует соответствующий поток, мы будем просто получать управление
     * по каждому прерыванию. */
    SIGEV_INTR_INIT( &event );
    id = InterruptAttachEvent( irq, &event, 0 );
    if ( id == -1 )
        return (EXIT_FAILURE);
        
    /* Ожидание и обработка прерываний */
    while ( 1 ) {
        InterruptWait( NULL, NULL );
            
        /* Код обработки прерывания */
        ...
            
        /* Выбор между размаскированием целевого прерывания до или после его фактической обработки зависит
         * от характера прерывания. */
        InterruptUnmask( irq, id );
    }
        
    return (EXIT_SUCCESS);
}

Как и в случае с классическими ISR, рекомендуется минимизировать время исполнения критических потоков реального времени, если для этого нет особых оснований. В противном случае возможно снижение интерактивности всей проектируемой системы. Оценивать примелемость этих издержек должен разработчик конечной системы.

Тематические ссылки:

InterruptAttach(), InterruptAttachEvent(), InterruptWait(), struct sigevent, ThreadCtl()

Предыдущий раздел: Обработчики прерываний