Original size 1140x1600

Визуализация набора данных о прогнозировании рака

8

Описание проекта

В проекте представлен визуализированный анализ данных заболеваемости раком, полученных с kaggle.com под названием «Cancer Prediction Dataset», составленный RABIE EL KHAROUA. Информация из таблицы позволяет узнать по каким критериям оценивается вероятность появления раковых заболеваний.

Каждый человек наверняка когда-нибудь слышал о раковых заболеваниях или сталкивался с ними. Эта болезнь не изучена до конца и врачи до сих пор борются с ней, выясняя причины и возможности предотвращения. Медицина не стоит на месте и шаг за шагом подходит к решению этой проблемы, однако пока не случилось создания вакцины, каждому человеку, вне зависимости от возраста, предрасположенностей и привычек, необходимо знать вероятности заболевания раком именно у него. Поэтому данные из этой таблицы становятся полезным помощником, для того чтобы оценить риски и предотвратить их как можно быстрее или же убедиться в прекрасном состоянии здоровья.

В исследовании использованы столбчатые диаграммы для данных, имеющих двойное или тройное значение (пол, курение, генетический риск); линейный график для возрастных обозначений, которые дают наибольшее понимание в сравнении со всеми возрастными группами; рассеянная графика, позволяющая рассмотреть каждый отдельный случай.

Для оформления графиков использована пастельная палитра, чтобы не пугать людей чрезмерной серьёзностью темы, а немного расслабить взор.

Статистика заболеваемости раком у представителей разных возрастных категорий

big
Original size 2480x1546
big
Original size 1802x364

Данный график помогает понять примерный возраст наименьшего и наибольшего риска для людей разных возрастных категорий. А именно, что от 20 до 50 лет рак встречается в несколько раз реже, чем у людей 50-70 лет. А люди от 70 до 80 всё ещё находятся в группе риска, однако уже преодолели самый частый период заболеваемости.

Статистика заболеваемости среди представителей женского и мужского полов

Original size 2480x1546
Original size 1458x328

Данный график показывает, что мужчины болеют раком чаще женщин в 2 раза.

Для подготовки данных мы узнаём среднее значение заболеваемости у женщин и мужчин.

Статистика влияния курения на развитие раковых заболеваний у людей с нулевым генетическим риском

Original size 2480x1332
Original size 1942x392

Удивительно, но результаты данного графика указывают на то, что курение не является решающим фактором возникновения рака, так как некурящие раковые больные превышают количество курящих. Это не означает, что курение не влечёт за собой возникновение болезни, однако доказывает, что совокупность иных факторов имеют большее влияние.

Особенностью сортировки данных является нулевой генетический риск. Такой способ позволит проанализировать влияние курения без лишних факторов, значительно меняющих результат диагноза. Также мы суммируем количество диагнозов курения, чтобы получить точный повсеместный результат каждого случая.

Зависимость средней заболеваемости раком от генетического риска

Original size 2480x1332
Original size 1580x326

Данных график показывает возможность заболеваемости рака в зависимости от степени генетического риска (0, 1, 2). В среднем, при генетической предрасположенности = 2, маленькая вероятность не заболеть раком. В то же время 0 и 1 имеют одинаковый результат и влияют в приблизительно в 2,5 раза меньше.

Статистика влияния различных факторов на развитие рака

Важно также рассчитать, какое влияние имеют факторы индекса тела, потребления алкоголя и физической активности у абсолютно здоровых людей (то есть у тех, кто не подвержен проблемам со стороны других факторов). Таким образом можно узнать:

1. Что наихудший индекс массы тела приходится на значение 30-35. В то же время, становится ясно: 13 из 153 (что можно увидеть из таблицы) человек больны раком (то есть каждый 11-й), что доказывает важность внимания на этот фактор вне зависимости от плохого или хорошего влияния других. 2. Что наихудший уровень потребления алкоголя от 3-5. А также, что 6 из 87 человек имеют рак (каждый 14-й), хотя не имеют проблем ни с одним из других факторов. 3. Что наилучший уровень физической активности от 7-10. А также, что 6 из 78 человек имеют рак (каждый 13-й), хотя не имеют проблем ни с одним из других факторов. 4. Что даже при лучшем состоянии здоровья, вредная привычка может привести к непоправимым последствиям, даже если влияние имеет только лишь она.

Анализ данных производился на основе отсеивания всех критериев до лучших значений, чтобы узнать чистый результат внимания одного определённого критерия на развитие рака.

Влияние индекса массы тела (BMI) на развитие раковых заболеваний

Original size 2480x730
Original size 2160x474

пометка: Оптимальное значение индекса массы тела для человека — от 18.5 до 25

Влияние потребления алкоголя на развитие раковых заболеваний

Original size 2480x730
Original size 2322x512

Влияние физической активности на развитие раковых заболеваний

Original size 2480x730
Original size 2362x506

В проекте использована нейросеть ideogram для генерации обложки по промту «Flowers in the shape of human organs»

Визуализация набора данных о прогнозировании рака
8
We use cookies to improve the operation of the HSE website and to enhance its usability. More detailed information on the use of cookies can be fou...
Show more