В России и за рубежом ведутся интенсивные разработки программных и аппаратных комплексов для решения задач в области обработки снимков медицинского и промышленного назначения. Созданы как универсальные программные и программно-аппаратные комплексы, на основе которых могут быть построены прикладные системы, так и специализированные комплексы, предназначенные для анализа медицинских данных. Рассмотрим особенности построения подобных систем и приведем их краткое описание.
В работе [4] изложено видение проблемы внедрения актуальных технологических решений как для лечебных и профилактических учреждений, так и для профильных ведомств и министерств. Показаны пути внедрения современных информационных технологий и систем в медицину для существенного повышения качества диагностики, лечения и реабилитации пациентов, расширения спектра решаемых медициной задач. В частности, говорится о необходимости объединения действующих медицинских систем, их модификации, интеграции и адаптации к новейшим задачам и технологиям с целью удовлетворения потребностей врачей-исследователей в медицинских сведениях.
Архитектура системы обработки больших объемов изображений на основе модели распределенных вычислений «MapReduce» [14], используемая для параллельных вычислений над большими наборами данных в компьютерных кластерах с автоматическим распараллеливанием, представлена в работе [7]. Особенностью этой разработки в области анализа изображений на кластерных установках является освобождение прикладного программиста, занимающегося обработкой изображений, от знания деталей внутреннего устройства, связанных с организацией параллельной работы и загрузкой изображений. Программист разрабатывает функцию, обрабатывающую только одно изображение, запуск которой для большого объема изображений в параллельно-конвейерном режиме выполняется системой автоматически.
Компанией «Открытые Технологии» [13] разработаны конфигурации компактных гибридных вычислительных систем на графических процессорах (GPU, Graphics Processing Unit). Основные особенности этих решений:
– наличие стандартных компонентов, достаточных для большинства задач, заказчику необходимо указать только номер конфигурации (или пиковую производительность), используемый тип GPU-вычислителей, необходимость высокоскоростной сети Infiniband, тип операционной системы (Linux либо Windows);
– система поставляется в виде готовой к работе платформы, решение вопросов интеграции системы в инфраструктуру сводится к минимуму;
– возможность использования серверного варианта GPU-вычислителя Nvidia Tesla для обеспечения повышенной надежности, удобства обслуживания и гибкости в подключении к серверам кластера;
– сопоставимость со стоимостью нескольких профессиональных рабочих станций при несоизмеримо более высокой совокупной производительности и возможностях.
Оценка современного состояния предметной области указывает на наличие следующих тенденций: повышенный интерес к проблеме построения универсальных инструментальных программных средств обработки медицинской информации при одновременном отсутствии, несмотря на имеющийся прогресс, эффективных методов построения сложных прикладных информационно-аналитических систем. Наблюдается активное патентование в США и других странах методов и систем обработки и визуализации, в которых все большую роль играют интеллектуальные методы анализа многомерных данных, включая методы классификации и когнитивного отображения информации.
Целью настоящего исследования является разработка архитектуры нового высокопроизводительного программно-аппаратного комплекса коллективного пользования (ПАК) для поддержки проведения научных исследований, связанных с изучением миграции клеток, трансплантированных в головной мозг в норме и при экспериментальном ишемическом повреждении. Настоящее исследование предполагает построение ПАК для коллективного использования результатов исследований, проводимых рядом институтов на уникальном оборудовании. Часть данных получается на томографе для малых лабораторных животных «ClinScan» компании «Bruker BioSpin» и с помощью ряда микроскопов. Постобработка данных томографии ведется на рабочей станции «HP Z400», которая характеризуется высокой производительностью, функциональностью, удобством обслуживания. Источником изображений микроскопической съемки выступает следующее оборудование: конфокальный микроскоп «Nikon A1R MP» (проприетарный формат получаемых данных), конфокальный микроскоп «Zeiss AxioPlan 2» (формат Tiff) и флуоресцентный микроскоп «Keyence BZ-9000E» (формат Tiff).
Создание подобного программно-инструментального комплекса призвано существенно усилить отдачу дорогостоящего оборудования, обеспечить накопление и доступ к базам данных и знаний, дать возможность большему числу исследователей глубже анализировать информацию и принимать обоснованные решения. В настоящей работе дается в виде научной концепции обоснование выбора архитектуры и приводится описание функциональных модулей программно-аппаратной системы высокопроизводительной обработки и визуализации данных МРТ и изображений микроскопической съемки для выполнения сопутствующих расчетов и интеллектуального анализа ситуации в реальном времени.
Требования к основным характеристикам исследовательского комплекса
Проект выполняется на базе имеющегося аппаратного обеспечения. Предполагается, что оно будет дополнено новым программным обеспечением и, по необходимости, улучшено путем расширения функциональных возможностей.
Томограф «ClinScan» работает с программным обеспечением «syngo® MR B15». К основным положительным характеристикам системы можно отнести:
– интегрированную технологию параллельного сбора данных «iPAT» (параллельная визуализация во всех направлениях), предназначенную для увеличения пропускной способности томографа;
– опцию «Multi-core», которая эффективна при использовании программ, предназначенных для использования многоядерных процессоров;
– высокую чувствительность за счет применения системы «CryoProbe TM Autopac», позволяющей повысить пространственное или временное разрешение и сократить время сканирования изображений микроскопических структур в живом организме мелких животных;
– возможность одновременного получения нескольких серий снимков;
– широкие возможности графического интерфейса, который, в частности, позволяет запускать несколько независимых друг от друга операций, например, запустить подгрузку новых изображений с томографа и в то же время делать некоторую обработку уже ранее загруженных изображений.
Имеется ряд обстоятельств, требующих совершенствования лабораторной базы как в части математического, так и аппаратного обеспечения:
– необходимость расширения функциональных возможностей и существенного усложнения исследовательских задач, требующих обучения, создания классов, тематической сегментации и выполнения измерений; задача осложняется такими факторами, как отсутствие априорной информации и универсального математического аппарата, решающего эту задачу с требуемой точностью;
– необходимость обработки и научной визуализации в интерактивном режиме больших объемов биомедицинских данных, поступающих от томографа и микроскопов, для чего целесообразно привлечение современных высокопроизводительных вычислительных средств и создание библиотек алгоритмов и программ, реализуемых в том числе на графических процессорах; уровень современных аппаратных платформ позволяет достаточно эффективно использовать ресурсы графических ускорителей и других имеющихся ускорителей для автоматизации процессов обработки биомедицинских данных и облегчить их анализ;
– необходимость в удобном графическом интерфейсе, позволяющем строить схемы решения задач на основе модульного принципа, а также реализующего интерактивную работу исследователя с данными с помощью встроенных инструментальных средств; задача формируется пользователем в виде иерархического орграфа, вершинами которого служат унифицированные программные модули, связываемые дугами передачи информации;
– возможность параллельной обработки информации одновременно несколькими исследователями, в том числе удаленными, на разнотипных вычислительных платформах, что требует реализации кроссплатформенности.
Построение ПАК требует выработки научной концепции на основе проработки особенностей существующих медицинских информационно-аналитических систем, включая используемые форматы и стандарты, методы обработки и визуализации данных, задачи выбора алгоритмов и построения библиотек, а также анализа современных программно-аппаратных решений. Наличие серьезных ограничений приводит к целесообразности построения нового исследовательского комплекса коллективного пользования на базе имеющегося лабораторного оборудования за счет совершенствования программно-аппаратной базы.
Требования, отвечающие научной концепции построения комплекса, можно сформулировать следующим образом:
– интерактивность – возможность врача проводить исследования в интерактивном режиме, т.е. режиме диалога с медицинским оборудованием и программно реализованными методами исследования;
– функциональная полнота – наличие методов, алгоритмов и методик, обеспечивающих достаточность функционального обеспечения комплекса при решении задач обработки и когнитивной визуализации многомерных биомедицинских данных;
– возможность параллельной обработки за счет распараллеливания программ применительно к многоядерным/многопроцессорным системам и графическим ускорителям;
– кроссплатформенность;
– интеграция территориально распределенного уникального оборудования, программного обеспечения и данных исследований в единую информационно-аналитическую систему на базе компьютерной вычислительной сети, томографа и микроскопов.
Требования по составу алгоритмов
На основе анализа научных источников выявлены следующие необходимые программные компоненты, опирающиеся как на продукты с открытыми кодами, так и на оригинальные разработки:
– алгоритмы конвертации данных из DICOM;
– стандартные и оригинальные алгоритмы предварительной обработки данных [2];
– методы выделения и тематической сегментации области мозга: подпрограмма «BET» (Brain Extraction Tool) из пакета программ «FSL», подпрограмма «seg_EM» программы «NiftySeg», а также специальные разработки [1];
– методы глубокой обработки данных с распознаванием и измерением областей поражения [5];
– программные средства визуализации данных («ImageJ», «MRIcron», «RadiAnt DICOM Viewer», «xjView», «Novo Spark», «3D Slicer» и др.).
Требования к графическому интерфейсу
Для повышения эффективности моделирования и оперативного отображения информации в состав ПАК должны входить соответствующие программные средства, позволяющие повысить оперативность построения схемы исследований, анализа и принятия решений. Программные средства отображения результатов должны обеспечивать оператору возможность выбора на схеме задачи точек вывода информации для отображения в удобном когнитивно-графическом виде. Должен быть определен формат передаваемых данных от модулей обработки данных, используемых в ходе решения прикладной задачи, в модули отображения интерфейса пользователя. Должна быть обеспечена поддержка следующих возможностей:
– построение визуальных образов для обрабатываемых данных и результатов обработки;
– передача информации о зонах или областях, представляющих особый интерес для пользователя (например, таких как выделенные аномалии);
– отображение нескольких потоков обрабатываемых данных в одном модуле визуализации;
– поддержка бесконфликтной работы нескольких удаленных пользователей;
– возможность настройки стилевой и визуальной составляющей отображаемых сущностей (в частности – модулей обработки, каналов связи);
– сохранение описаний задач (схем) в виде текста в формате XML;
– окно визуализации схем задач должно обеспечивать стандартные интерфейсы управления, такие как перемещение по рабочему пространству с помощью манипулятора типа «мышь»; кнопки уменьшения/увеличения масштаба; горизонтальные и вертикальные полосы прокрутки;
– возможность подключения модулей для отображения специальных когнитивных образов, в том числе с помощью современных средств визуализации, например, платформонезависимых программных интерфейсов «OpenGL» и/или «Vulkan»;
– кроссплатформенность и единство внешнего вида на разных операционных системах (Windows, Linux и пр.).
Концепция построения высокопроизводительного исследовательского комплекса коллективного пользования
Предлагаемая концепция программно-инструментального комплекса учитывает современные направления развития медицинских информационных технологий в области обработки и визуализации изображений [3], в том числе принципы:
– унификации и интеллектуализации медицинских и промышленных интерфейсов;
– стандартизации форматов представления данных и создания библиотек методов их обработки;
– стандартизации способов передачи данных в синхронном и асинхронном режимах;
– интеллектуализации автоматизированной и автоматической обработки слабоструктурированных данных;
– визуализации многомерной и разнородной информации (в том числе когнитивной);
– поддержки принятия решений пользователя;
– модульности и наращиваемости программного обеспечения;
– параллельной обработки на многопроцессорных вычислительных системах и графических процессорах.
Схема интегрированного программно-аппаратного комплекса представлена на рис. 1.
Рис. 1. Схема интегрированного комплекса
Клиентская часть включает в себя графический интерфейс пользователя, обеспечивающий формирование схем решения прикладных задач в парадигме визуально-блочного программирования и отображение результатов обработки биомедицинских данных, полученных с использованием исследовательского оборудования.
Серверная часть программно-аппаратного комплекса обеспечивает хранение и многопользовательский доступ к данным проводимых исследований (посредством БД) и возможность их высокопроизводительной конвейерно-параллельной обработки в соответствии со сформированными пользователями задачами с использованием ядра программной системы, обеспечивающего вычислительную среду, и модулей обработки, реализующих требуемые алгоритмы.
Концепция построения высокопроизводительной системы обработки и научной визуализации данных МРТ и изображений микроскопической съемки опирается на имеющиеся в ИПС им. А.К. Айламазяна РАН разработки в области конвейерно-параллельных вычислений. Как правило, вычислительные ресурсы существующих медицинских комплексов не обладают высокой производительностью, что препятствует обработке больших объемов анализируемых данных и реализации многопользовательского режима. Применение графических процессоров для решения задач обработки медицинских снимков является перспективным направлением, способным значительно сократить временные затраты на обработку данных. Процессоры общего назначения (CPU) и графические процессоры дополняют друг друга. CPU показывает лучшую производительность при работе с последовательными задачами, но при большом объеме обрабатываемой информации, с которой можно работать параллельно, очевидное преимущество имеет GPU.
Предлагаемые авторами программно-аппаратные решения опираются на имеющийся научный задел в области высокопроизводительной конвейерно-параллельной обработки данных [10]. Наиболее перспективным подходом видится использование концепции GPGPU, которая позволит достичь многократного повышения производительности за счет архитектурных особенностей графических ускорителей [9]. Ускорение автоматического анализа потоков медицинских данных выполняется за счет учета конвейерности процессов обработки как особого вида параллелизма. Программно-инструментальный комплекс для организации конвейерно-параллельных вычислений имеет в качестве прототипа архитектуру системы, описанную в работах [3, 8, 12]. Архитектура ПАК предоставляет пользователю возможности формирования различных стратегий параллельной обработки данных на мультипроцессорных системах. Основу составляют ядро, графический интерфейс, модули параллельных реализаций искусственных нейронных сетей, фильтров и других алгоритмов. Универсальное программное ядро обеспечивает связь модулей в процессе выполнения задачи. С помощью графического интерфейса формируется образ задачи, который записывается в виде XML-файла и может быть сохранен и/или выполнен на вычислителе.
Прототипом аппаратной части системы может служить высокопроизводительный вычислительный комплекс «MIX-1» [6]. Общая архитектура высокопроизводительного гетерогенного вычислительного комплекса для параллельной обработки представлена на рис. 2. Архитектура комплекса удовлетворяет современным требованиям к структуре, способам обработки и передачи информации и соответствует мировым тенденциям в данной области. Комплекс представляет собой гетерогенную вычислительную систему с распределенной памятью. Вычислительные узлы имеют одинаковые аппаратные характеристики, что предполагает легкое горизонтальное масштабирование системы с целью увеличения общей производительности комплекса при решении требуемых задач.
Рис. 2. Архитектура и общий вид вычислительной системы «MIX-1»
Рис. 3. Архитектура программной части комплекса
В таблице далее представлены основные аппаратные характеристики вычислительных узлов системы.
На рис. 3 представлена архитектура программного обеспечения высокопроизводительного гетерогенного вычислительного комплекса для обработки данных МРТ и изображений микроскопической съемки.
Для выполнения исследований комплекс оснащен прикладным программным обеспечением, которое позволяет эффективно решать как вычислительные задачи, допускающие внутренний (потоковый) параллелизм в рамках одного процесса, так и задачи, требующие распределения по данным между несколькими узлами кластерного вычислительного устройства.
В настоящее время ПАК может комплектоваться библиотекой «XRay» алгоритмов обработки изображений медицинского и промышленного назначения с использованием GPU [11]. Библиотека содержит модули программ-обработчиков, ориентированные на гетерогенную вычислительную среду, и позволяет решать спектр задач обработки как данных МРТ, так и снимков медицинского назначения (в том числе изображений микроскопической съемки). В состав библиотеки входят модули для интегральных преобразований, обработки данных в частотной области; обработки с помощью фильтров (масок); сегментации и маркировки; работы с гистограммами; поэлементной обработки изображений.
Аппаратные характеристики вычислительного узла системы «MIX-1»
Наименование |
Значение |
Конструктив узла |
1U RackMount |
Тип процессора |
Intel®Xeon® X5650 2,66 ГГц |
Тактовая частота внешней шины |
1333 Мгц |
Количество процессоров |
2 |
Тип коммуникационной сети |
Gigabit Ethernet |
Оперативная память |
32 Гб ECC |
Блок питания |
2 х 1400 Вт |
Дисковая память |
2 х 300 Гб |
Система охлаждения |
Воздушная |
Графические ускорители |
2 x Nvidia Tesla M2050 |
Заключение
Разработана концепция универсального программно-аппаратного комплекса коллективного пользования для конвейерно-параллельной обработки данных МРТ и изображений микроскопической съемки в гетерогенной вычислительной среде. Можно выделить следующие основные свойства и особенности комплекса:
– наличие средств высокопроизводительной обработки потоков данных на многоядерных и графических процессорах, в том числе методов и технологий фильтрации, выделения и текстурного анализа;
– наличие унифицированных прикладных библиотек алгоритмов базовой обработки данных для обеспечения работы врачей-исследователей;
– возможность удаленной коллективной работы над накопленными данными.
В дальнейшем планируется уточнить состав программных средств для решения различных прикладных задач.
Авторы выражают благодарность Губскому Илье Леонидовичу (ГБОУ ВПО РНИМУ им. Н.И. Пирогова Минздрава России) и Вахрушеву Игорю Викторовичу (НИИ биомедицинской химии имени В.Н. Ореховича) за ценные консультации и экспертную оценку выдвинутых предложений.
Работа выполнена при частичной финансовой поддержке проекта РФФИ № 16-29-07116-офи_м «Информационно-аналитические модели и методы когнитивной визуализации процессов миграции и хоуминга трансплантированных мезенхимальных стволовых клеток для поддержки проведения научных исследований и разработки подходов к лечению заболеваний методами клеточной терапии».