Проницаемость в центральную нервную систему (CNS) является ключевым фактором как для создания новых лекарственных препаратов для лечения неврологических заболеваний, так и для защиты нервной системы от вредных веществ. Использование методов QSAR позволяет оценить возможность проникновения в CNS новых веществ на предварительном этапе испытаний, что значительно сокращает затраты и позволяет оптимизировать работы в конструировании лекарств.
В 1997 году Липинским [6] было предложено «правило-5» для оценки того, чтобы вещество могло быть лекарством для CNS. Это правило включает 5 параметров (Молекулярный вес меньше 500, число атомов доноров и акцепторов водорода а также logP меньше 5, пятый параметр заключается в присутствии везде цифры 5). Это правило значительно повлияло на развитие медицинской химии и упоминается в сотнях публикаций. Позднее Вагер и др. [14] предложили более сложный способ оценки для исследования проницаемости в CNS – метод MPO (Multi Parameter Optimization). В методе использованы шесть физико-химических параметров (logP, logD, MW, TPSA, число атомов – доноров H и pKa для наиболее основного центра). Вместо порогового значения в методе MPO используются нормированные (от 0 до 1) значения каждого параметра, и результат определяется суммой этих нормированных параметров (от 0 до 6). В обзоре [10] описаны другие подходы с использованием других дескрипторов для построения QSAR модели проницаемости химических соединений в центральную нервную систему.
В основе метода структурного сходства лежит тот факт, что свойство исследуемого соединения определяется из известных свойств наиболее родственных структурных соединений (подход, аналогичный методу kNN, k-ближайшего соседа). В рамках этого подхода для каждого рассматриваемого соединения устанавливается ряд структурно-родственных соединений, и среднее арифметическое значение их свойства принимается за рассчитанное значение свойства изучаемого соединения. Выбор родственных соединений может быть проведен также с использованием и других дескрипторов, используемых при исследованиях QSAR, поэтому метод структурного сходства является частным случаем метода AMP (Arithmetic Mean Properties) [8, 9]. Результаты исследований данным методом показывают, что в большинстве случаев достаточно использование трех ближайших соседей. В качестве структурных дескрипторов могут быть использованы индексы схожести Танимото [12]. Таким образом, для каждой молекулы можно определить n наиболее похожих молекул, а исследуемому свойству приписать среднее свойство его ближайших соседей.
Целью данной работы является построение классификационной модели для проницаемости в центральную нервную систему с помощью структурных дескрипторов методом структурного сходства и сравнение полученных результатов с эмпирическими правилами Липински [6] и MPO [14].
Материалы и методы исследования
Созданная нами база данных содержит информацию о проницаемости в CNS 2294 уникальных соединений и процитирована из публикаций [1, 3, 4, 5, 11, 15]. Среди них 1159 соединений считались проницаемыми через CNS, 735 – нет. С помощью алгоритма, описанного в [12] и реализованного в СУБД CheD [13], все соединения были отсортированы в порядке убывания индекса разнообразия и отобрано по пятьсот соединений CNS+ и CNS-. Это позволило отобрать наиболее непохожие соединения для формирования обучающей и тестовой выборок. Каждое пятое соединение из отобранных пятисот было отобрано для формирования тестовой выборки. Таким образом, были сформированы выборки из 400 обучающих соединений и 100 тестовых. Кроме того, были сформированы также внешние тестовые выборки по 50 соединений – лекарств [2], для которых данные по проницаемости в CNS наиболее достоверны. Для полученных выборок была рассчитана матрица схожести Танимото Ti,j [12].
Программа AMP [8, 9] в качестве входной информации использует матрицу схожести Танимото, данные по активности CNS («+» или «–») и число ближайших соседей для расчета активности. В выходном файле для каждого соединения перечисляются номера ближайших структурных соседей и индексы схожести Танимото (Tc) c каждым соседом. Считается, что соединение имеет свойство CNS+ (или CNS-), если большая часть его соседей имеет активность «+» (или «-»).
Результаты исследования и их обсуждение
В таблице представлены результаты моделирования проницаемости в CNS методом структурного сходства и дано сравнение с эмпирическими правилами Липински (правило «5») [6] и MPO [14].
Результаты классификации проницаемости химических соединений в CNS методом структурного сходства.
k |
Выборка |
Число CNS+ |
Число CNS- |
Точн. CNS+ |
Точн. CNS- |
Точн. общая |
Точн. «5» |
Точн. MPO |
1 |
Обуч.(800) |
326 |
312 |
0,815 |
0,780 |
0,798 |
0,560 |
0,573 |
Тест(200) |
76 |
85 |
0,760 |
0,850 |
0,805 |
0,630 |
0,585 |
|
Тест(100, вн.) |
40 |
31 |
0,800 |
0,620 |
0,710 |
0,550 |
0,520 |
|
3 |
Обуч.(800) |
322 |
314 |
0,805 |
0,785 |
0,795 |
||
Тест(200) |
77 |
84 |
0,770 |
0,840 |
0,805 |
|||
Тест(100, вн.) |
36 |
36 |
0,720 |
0,720 |
0,720 |
|||
5 |
Обуч. (800) |
315 |
308 |
0,788 |
0,770 |
0,779 |
||
Тест(200) |
78 |
79 |
0,780 |
0,790 |
0,785 |
|||
Тест(100, вн.) |
35 |
38 |
0,700 |
0,760 |
0,730 |
Примечания. k – число ближайших соседей, число CNS+ и CNS- количество правильно определенных соединений, точность CNS+ CNS- доля правильно классифицированных соединений, точность «5» и MPO – доля правильно классифицированных соединений методами Липински [6] и MPO [14].
Приведенные данные демонстрируют значительное улучшение в точности предсказания проницаемости в CNS по сравнению с эмпирическим правилом – «5» и MPO. Немного выпадает точность в классификации CNS-внешней выборки [2], особенно для одного соседа – 0,62. Это может быть связано с тем, что в обучающей выборке недостаточно структурных фрагментов, представленных во внешней тестовой выборке. Остальные результаты близки к экспериментальной точности определения свойств и могут быть использованы при конструировании перспективных лекарств. Полученная модель очень проста, для ее использования не требуется знания сложных машинно-обучаемых методов и программ. Единственным параметром является структура изучаемого вещества. Кроме того, точность прогноза легко может быть улучшена за счет расширения обучающей выборки и привлечения в нее более разнообразных соединений.