Scientific journal
Modern high technologies
ISSN 1812-7320
"Перечень" ВАК
ИФ РИНЦ = 1,172

PROBLEM OF RADIATION DIAGNOSIS OF BREAST CANCER: COMPREHENSIVE STUDY BASED ON MODERN MATHEMATICAL MODELING TECHNOLOGY AND COMPUTATIONAL EXPERIMENT

Tyrsin A.N. 1, 2 no name 3
1 Ural Federal University named after the first President of Russia B.N. Yeltsin
2 Scientific-Engineering Center Reliability and Life of Large Systems and Machines
3 Sverdlovsk Regional Oncological Dispensary
1682 KB
To date, the classification of breast cancer is based on five biological subtypes of the tumour, which differ in prognosis, aggressiveness and sensitivity to various types of therapy. The tumour biotype is determined by immunohistochemical analysis. An urgent problem is the transition to non-invasive breast cancer biotype detection. The main diagnostic imaging methods include X-ray projection mammography and ultrasound. The purpose of the article is a comprehensive study of this problem of radiation diagnostics of breast cancer using modern technology of mathematical modelling and computational experiment. The study is based on the radiological and ultrasound characteristics of tumours. Two research methods are considered: classification of data by biotypes using linear discriminant analysis and vector entropy analysis of indicators for patients from each biotype. The study was conducted on a sample of 365 patients. Discriminant analysis did not allow the data to be correctly classified into the corresponding biotypes, mainly due to correlations between the radiological and ultrasound parameters used. Vector entropy modelling has shown that the relationship between radiological and ultrasound characteristics in the biotypes of breast cancer differs significantly from each other. 5 different entropy indicators were analysed. It was established that these entropy indices are pairwise distinguishable between all biotypes. The results of a comprehensive study allow us to count on the development of quantitative criteria for the non-invasive diagnosis of breast cancer biotypes.
model
entropy
correlation
breast cancer
biological subtypes
radiomics

Введение

Рак молочной железы (РМЖ) – одно из самых распространенных онкологических заболеваний у женщин. Согласно данным Всемирной организации здравоохранения, на него приходится каждый шестой случай заболевания раком среди женщин. В 2022 г. в мире было выявлено 2,3 млн новых случаев. В России ежегодно РМЖ обнаруживают у 70 тыс. женщин и более 20 тыс. умирают. Злокачественные новообразования молочной железы остаются огромной медико-социальной проблемой, нанося колоссальный ущерб на государственном, региональном и индивидуальном уровнях [1].

На сегодняшний день классификация РМЖ основана на пяти биологических подтипах (биотипов) опухоли, которые различаются по прогнозу, агрессивности и чувствительности к различным видам лекарственной терапии: 1 – люминальный A; 2 – люминальный B; 3 – люминальный В HER2+; 4 – нелюминальный HER2+; 5 – базальноподобный TNBC [2]. Своевременное установление подтипа РМЖ позволяет подобрать индивидуальную схему лечения заболевания и улучшает выживаемость и прогноз [3]. В настоящее время биотип опухоли определяют с помощью иммуногистохимического анализа, относящегося к инвазивным методам исследования [4]. Очевидно, что актуальной проблемой является переход к неинвазивному установлению биотипа РМЖ, основанному на использовании адекватных математических моделей, учитывающих основные особенности данных. Сложность решения этой проблемы лучевой диагностики рака молочной железы требует комплексного исследования с применением современной технологии математического моделирования и вычислительного эксперимента.

К основным диагностическим методам визуализации относят рентгеновскую проекционную маммографию и ультразвуковое исследование. В ряде публикаций [2–6] отмечается определенный прогресс в использовании данных неинвазивных инструментов диагностики и оценки биологии опухоли. Одним из развивающихся направлений в неинвазивной диагностике является использование энтропийного анализа медицинских изображений. Публикуется большое количество работ, например [7–9], можно отметить определенный успех на стадии обнаружения отдельных заболеваний, включая и онкологию.

Однако пока отсутствуют обоснованные количественные критерии установления биотипа РМЖ на ранней стадии заболевания. Это можно объяснить тем, что данная проблема является более сложной по сравнению с обнаружением по изображениям РМЖ. По нашему мнению, ее эффективное решение требует системного подхода к математическому моделированию [10–12].

Цель исследования – комплексное исследование проблемы лучевой диагностики рака молочной железы на основе рентгенологических и ультразвуковых характеристик опухолей с применением современной технологии математического моделирования и вычислительного эксперимента.

Материалы и методы исследования

Из пациентов, проходивших обследование в Свердловском областном онкологическом диспансере с 2020 г., была сформирована выборка результатов рентгенологического и ультразвукового обследований для 365 пациенток возраста от 31 до 86 лет. Диагностические показатели описаны во многих публикациях [2; 13; 14, с. 49–79]. Они приведены в табл. 1. Для определения биотипов РМЖ было проведено комплексное гистологическое и иммуногистохимическое исследование всех пациенток. В результате в выборке оказались больные из всех пяти биотипов, в которых имеется 107, 177, 27, 21, 33 наблюдения соответственно.

Исследование включает две задачи. Во-первых, исследуем возможность по векторам рентгенологических и ультразвуковых показателей корректно классифицировать больных в соответствии с установленными биотипами. Многие авторы отмечают влияние возраста T на особенности заболевания, поэтому его также будем учитывать в анализе.

Во-вторых, попробуем найти существенные различия между биотипами на основе анализа рентгенологических и ультразвуковых показателей пяти кластеров (групп) пациенток.

Одним из наиболее распространенных методов классификации данных по обучающей выборке является линейный дискриминантный анализ [15, с. 10–17]. Он основан на возможности разделения совокупности данных на L кластеров с помощью гиперплоскостей, на основе обучающей выборки данных. Здесь объединяем все показатели в одно множество (вектор):

.

Таблица 1

Система рентгенологических и ультразвуковых показателей

Обозначение

Показатели маммографии

R1

Ведущий симптом по маммографии: 1 – микрокальцинаты в молочной железе; 2 – наличие узлов в молочной железе; 3 – узлы и микрокальцинаты в молочной железе; 4 – фокальная асимметрия молочной железы; 5 – узлы отдельно, микрокальцинаты отдельно

R2

Контуры: 1 – четкие ровные контуры; 2 – четкие неровные контуры; 3 – нечеткие контуры; 4 – контуры с тяжистостью

R3

Максимальный размер уплотнения (в мм): 1 – 0…5; 2 – 6…10; 3 – 11…15; 4 – 16…20

R4

Плотность образования: 1 – гиперденсная; 2 – изоденсная; 3 – гиподенсная

R5

Втяжение соска: 0 – нет; 1 – есть

R6

Утолщение кожи: 0 – нет; 1 – есть

 

Показатели магнитно-резонансной томографии

U1

Эхогенность: 1 – гипо; 2 – гипер; 3 – смешанная

U2

Дистальная акустическая тень: 1 – есть; 2 – нет

U3

Контуры: 1 – четкие; 2 – нечеткие

U4

Кровоток: 1 – периферический; 2 – интранодулярный; 3 – смешанный

U5

Эластотип по Tsukuba

U6

Микрокальцинаты: 1 – есть; 2 – нет

Рассмотрим его использование на примере двух кластеров [16, с. 509–516]. В этом случае имеем уравнение разделяющей гиперплоскости

,

где f(x) – дискриминантная функция, M – число переменных (анализируемых показателей), C – константа дискриминации, . Если f(xº) > C, то наблюдение xº относим к первому кластеру, если f(xº) < C, то ко второму.

Вектор коэффициентов , где – вектор средних значений показателей k-го кластера; – объединенная ковариационная матрица; Xk – матрица значений показателей k-го кластера; nk – число наблюдений в k-м кластере; , где ; k = 1,2.

Модели на основе дискриминантного анализа и других методов классификации не учитывают многомерную корреляцию анализируемых показателей. Для учета корреляций нужно рассматривать не отдельные наблюдения, а в целом биотипы РМЖ. Одним из подходов, учитывающих такие корреляции, является векторное энтропийное моделирование [17, с. 94–99]. Отметим несколько публикаций, в которых оно было применено для различных задач медицинской диагностики [18–20]. Этот подход основан на векторном представлении дифференциальной энтропии, введенной в [21] как энтропия непрерывного распределения многомерной непрерывной случайной величины.

Дифференциальная энтропия (далее – энтропия) M-мерного случайного вектора равна [17, с. 94]:

(1)

где

– энтропийная «мера хаотичности»,

– энтропийная «мера самоорганизации», σj – среднеквадратическое отклонение случайной величины Yj, – энтропийный показатель типа закона распределения случайной величины Yj, – индексы детерминации регрессионных зависимостей.

Согласно (1): 1) если между компонентами случайного вектора X отсутствует строгая функциональная связь, но хотя бы одна компонента коррелирована Xj хотя бы с одной компонентой Xk (j ≠ k), то 0 < GR(X) < ∞; 2) если хотя бы одна компонента Xj строго функционально связана хотя бы с одной компонентой Xk (j ≠ k), то GR(X) = ∞; 3) если все компоненты случайного вектора X взаимно независимы, то GR(X) = 0; 4) чем теснее корреляционная связь между компонентами случайного вектора X, тем больше значение GR(X). В частном случае, когда X – гауссов случайный вектор, имеем

,

(2)

где Rx – корреляционная матрица случайного вектора X.

Энтропия (1) состоит из двух составляющих. Первое слагаемое HV(X) определяет предельную энтропию, соответствующую полной независимости показателей X, и характеризует рассмотрение системы (РМЖ) как состоящего из частей (аддитивность). Второе слагаемое GR(X) отражает степень взаимосвязей между показателями, характеризуя свойства системы как целого (целостность). Поскольку HV(X) и GR(X) характеризуют разные стороны поведения заболевания как системы, то будем рассматривать энтропию (1) в векторной форме в виде двух компонент – энтропийных мер хаотичности и самоорганизации:

(3)

Векторная энтропийная модель (1)–(3) учитывает все основные закономерности сложных систем [17, c. 34–43].

Рентгенологические и ультразвуковые показатели представлены в виде балльных значений. Поэтому при вычислении дифференциальных энтропий HV(Xj) используем методику, приведенную в [22], а при вычислении парных корреляций между показателями считаем, что для каждого балльного значения соответствующие фактические значения показателя имели некоторое гауссово распределение [23, с. 54–59].

Группы рентгенологических и ультразвуковых показателей можно интерпретировать как подсистемы в системе всех показателей. Поэтому для диагностирования биотипа РМЖ можно использовать энтропийную меру связи между этими группами [17, с. 97–98]:

(4)

где , – коэффициенты тесноты корреляционной связи между компонентами случайных векторов R и U.

Если R и U – гауссовы случайные векторы, имеем

(5)

Согласно (4): 1) если между компонентами случайных векторов R и U отсутствует строгая функциональная связь, но хотя бы одна компонента коррелирована Rj хотя бы с одной компонентой Uk, то 0 < G(R ∩ U) < ∞ ; 2) если хотя бы одна компонента Rj строго функционально связана хотя бы с одной компонентой Uk, то G(R ∩ U) = ∞ ; 3) если все компоненты случайного вектора R взаимно независимы с компонентами случайного вектора U, то G(R ∩ U) = 0 ; 4) чем теснее корреляционная связь между компонентами случайных векторов R и U, тем больше значение G(R ∩ U).

Результаты исследования и их обсуждение

Выполним классификацию больных по пяти биотипам на основе линейного дискриминантного анализа. Для сопоставимости данных нормализуем показатель T (возраст пациентки) – приведем выборку к минимуму, равному 0, и единичной дисперсии. Решение состоит в нахождении такой совокупности показателей, которая позволила бы (если это возможно) статистически достоверно распознать различия в этих группах. В табл. 2 представлены результаты дискриминантного анализа пяти биологических подтипов больных.

Параметр Wilks’ lambda (λ, лямбда Уилкса, статистика Уилкса) принимает значения от 0 до 1. Чем меньше λ, тем лучше разделяются данные на пять кластеров. Значения параметра в целом по показателям λ = 0,509, что свидетельствует о неудовлетворительном результате классификации данных. В первом столбце (Wilks’ lambda) табл. 3 приведены значения статистика Уилкса с исключенной соответствующей переменной. Во втором столбце (Partial Lambda) приведены значения частной лямбды Уилкса. Данная статистика описывает одиночный вклад соответствующей переменной в дискриминацию между совокупностями. Чем она меньше, тем больше вклад показателя в общую дискриминацию, видим, что ни одна из переменных не позволяет разделить совокупность многомерных данных на пять групп.

Таблица 2

Результаты дискриминантного анализа, λ = 0,509; F(40, 1332) = 6,489; p < 0,000

Показатель

Wilks’ Lambda

Partial Lambda

F-remove (4, 351)

p-level

Toler.

R2

0,565

0,901

9,677

0,000

0,734

R3

0,563

0,904

9,312

0,000

0,925

R4

0,538

0,946

4,984

0,001

0,944

R5

0,529

0,962

3,444

0,009

0,768

R6

0,534

0,954

4,269

0,002

0,771

U1

0,530

0,960

3,633

0,006

0,919

U2

0,531

0,958

3,818

0,005

0,741

U3

0,534

0,953

4,319

0,002

0,873

U6

0,532

0,958

3,853

0,004

0,926

T

0,565

0,901

9,669

0,000

0,911

Источник: составлено авторами на основе полученных данных в ходе исследования.

Таблица 3

Результаты классификации данных на пять биотипов

Group

Percent Correct

G_1:1

p = 0,293

G_2:2

p = 0,485

G_3:3

p = 0,074

G_4:4

p = 0,058

G_5:5

p = 0,090

G_1:1

36,45

39

61

0

4

3

G_2:2

85,31

12

151

6

0

8

G_3:3

55,56

0

12

15

0

0

G_4:4

4,76

6

14

0

1

0

G_5:5

54,55

0

14

0

1

18

Total

61,37

57

252

21

6

29

Источник: составлено авторами на основе полученных данных в ходе исследования.

В следующих двух столбцах приведены F-статистики (F-remove) дисперсионного анализа и соответствующие p-уровни, характеризующие вклад каждой из переменных в различие двух групп. В соответствии с результатами наиболее значимыми являются показатели R2, R3, T. Значение толерантности (Toler) показателя вычисляется как 1 R2, где R2 – коэффициент детерминации линейной регрессии этого признака Xi на оставшуюся совокупность статистически значимых признаков, использованную в анализе.

В табл. 3 приведены результаты классификации данных.

Из табл. 3 видим, что только 61,4 % пациенток были правильно классифицированы. А для биотипа 4 правильно классифицирована только одна пациентка из 21. Таким образом можно говорить о неудовлетворительной классификации больных на биотипы РМЖ.

Энтропийный анализ проведем по всем популяциям пациенток для всех пяти биологических подтипов. Из-за линейной зависимости и постоянства значений для всех пациенток биотипа исключим по два показателя из каждой группы. В результате будем рассматривать четыре рентгенологических и четыре ультразвуковых показателя. Для энтропийного анализа в рамках соотношений (1)–(5) достаточно для всех пяти биотипов определить корреляционные матрицы и вычислить среднеквадратические отклонения рентгенологических и ультразвуковых показателей. Это легко реализуется даже средствами MS Excel.

В табл. 4 приведены рассчитанные по формулам (2), (4), (5) энтропийные показатели для всех биотипов РМЖ. Видим, что во многих случаях показатели для разных биотипов существенно различаются. Поэтому сравним попарно показатели между биотипами. Будем считать, что значения показателя у двух биотипов существенно различимы, если они отличаются хотя бы в 1,9 раза.

На рисунке для каждого из подтипов приведены значения всех пяти показателей Yi(k,j), рассчитанных по табл. 4. Логарифмирование позволяет легко интерпретировать рисунки – если значение показателя не ниже 1, то это означает существенное различие между соответствующими подтипами. В табл. 5 дана сводка значимых попарных отношений энтропийных показателей из рисунка.

Таблица 4

Энтропийные показатели для всех биотипов

Подтип

Gr(R∪U)

Gr(R)

Gr(U)

G(R∩U)

Hv(R)

Hv(U)

Hv(R) – Hv(V)

1

0,843

0,065

0,225

0,554

3,576

2,625

0,951

2

0,368

0,050

0,026

0,292

3,143

1,306

1,837

3

1,823

0,365

0,289

1,168

3,371

-6,062

9,434

4

8,218

2,065

4,802

1,351

3,936

2,499

1,436

5

1,061

0,186

0,286

0,590

2,769

2,613

0,156

Источник: составлено авторами на основе полученных данных в ходе исследования.

Значения всех пяти показателей Yi(k,j) для каждого из подтипов

Обозначим , ,

, ,

, .

Из табл. 5 видно, что от 2 до 5 раз энтропийные показатели между всеми биотипами различаются более чем в 2 раза.

Таблица 5

Сводка значимых попарных отношений энтропийных показателей

k

j

1

2

3

4

5

1

4

4

4

2

2

4

5

4

5

3

4

5

4

3

4

4

4

4

5

5

2

5

3

5

Источник: составлено авторами на основе полученных данных в ходе исследования.

Заключение

Проведенное комплексное исследование проблемы лучевой диагностики рака молочной железы с применением современной технологии математического моделирования и вычислительного эксперимента показало следующее. Неудачное использование линейной классификации данных свидетельствует о наличии корреляций между используемыми рентгенологическими и ультразвуковыми показателями. Векторное энтропийное моделирование показало, что множества рентгенологических и ультразвуковых показателей у пяти биотипов РМЖ имеют различия на системном уровне. Проанализированы пять энтропийных показателей. Оказалось, что не менее чем в двух случаях эти энтропийные показатели между всеми биотипами попарно различимы. Это позволяет в дальнейшем разработать количественные критерии неинвазивной диагностики биотипов РМЖ на начальной стадии заболевания. Результат может быть достигнут за счет совместного использования двух рассмотренных методов математического моделирования – линейного дискриминантного анализа и векторного энтропийного моделирования. Для повышения достоверности этих критериев в дальнейшем желательно увеличить обучающие выборки больных для 3, 4, 5-го биотипов, а также привести используемые в рамках исследования наборы данных.