본문 바로가기
AI 공부

LSTM 딥러닝(데이터 전처리)

by concho 2023. 10. 3.

1. deathTable()

이 함수는 사망한 환자의 데이터를 선택하고 저장합니다. 특정 조건(예: 중환자실에서의 사망)에 따라 환자의 데이터를 필터링하고, 이러한 환자들의 데이터를 분석하거나 추가 처리를 위해 저장합니다.

2. patients_info()

이 함수는 병원 전체 환자의 데이터를 선별하고 저장합니다. 모든 환자 데이터를 스캔하여 필요한 정보만을 추출하고 정제하여 다른 분석이나 처리를 위한 준비를 합니다.

3. process_data()

ICU와 차트 이벤트 파일에서 필요한 itemid를 선택합니다. 한 행에 여러 itemid가 있을 경우 이를 열 형식으로 변환하여 데이터의 가독성과 처리 용이성을 높입니다.

4. insert_patient_info()

이 함수는 patients_info()에서 선별된 환자 정보를 바탕으로 ICU 데이터에 환자 정보를 추가합니다. 이는 환자의 고유 정보와 ICU 데이터를 연관짓기 위한 과정입니다.

5. insert_death()

deathTable()에서 선별된 사망 환자 정보를 바탕으로 ICU 데이터에 사망 정보를 추가합니다. 중환자실에서 사망하거나 중환자실을 떠난 후 일주일 안에 사망한 환자의 정보를 추가하여 사망자 데이터를 완성합니다.

6. seqing_M2()

이 함수는 딥러닝에 필요 없는 정보를 제거합니다. 예를 들어, subject_id, hadm_id 등의 식별 가능한 정보를 제거하여 딥러닝 모델에 입력할 데이터를 정제합니다.

요약

  • deathTable: 사망한 환자 데이터를 선별하고 저장
  • patients_info: 병원의 모든 환자 데이터를 선별하고 저장
  • process_data: ICU와 차트 이벤트 데이터에서 필요한 itemid를 선별하고 열 형태로 재구성
  • insert_patient_info: ICU 데이터에 환자 정보 추가
  • insert_death: ICU 데이터에 사망 정보 추가
  • seqing_M2: 딥러닝에 불필요한 정보를 제거하여 데이터를 정제

각 함수는 환자의 데이터를 선별, 정제, 확장 및 변환하는 역할을 수행하여 병원 데이터를 딥러닝 모델에 적용 가능한 형태로 만드는 과정에 중요한 역할을 합니다.


ex) 원본 chart event 예시 차트

subject_id hadm_id stay_id itemid value valuenum
10005817 20626031 32604416 225054 On   
10005817 20626031 32604416 223769 100 100
10005817 20626031 32604416 223956 Atrial demand
10005817 20626031 32604416 224866 Yes  
10005817 20626031 32604416 227341 No 0
10005817 20626031 32604416 224751 52 52

 

최종 결과물:

사용 가능하고 중요한 itemid을 선별하고 valuenum 값을 열(column)형식으로 나열 
max_220045: 해당 환자가 그 날짜에 측정한 220045(심박수)의 최댓값 데이터이다.

max_220045 max_220046 min_224057 min_224058 gender anchor_age death_or_not
77 130 2 2 0 68 0
74 130 1 2 0 68 0
87 130 1 2 0 68 1
96 120 3 3 1 80 0
108 120 3 2 1 80 0
106 120 3 2 1 80 0

데이터 설명: 
3개의 줄이 모여 1개의 시퀀스를 구성,  death_or_not은 결과

시퀀스 1 (환자1)

1일 77 130 2 2 0 68 0
2일 74 130 1 2 0 68 0
3일 87 130 1 2 0 68 1

시퀀스 2 (환자2)

1일 96 120 3 3 1 80 0
2일 108 120 3 2 1 80 0
3일 106 120 3 2 1 80 0

 

'AI 공부' 카테고리의 다른 글

Colab  (0) 2023.10.04
LSTM 딥러닝 (모델)  (0) 2023.10.03
LSTM 딥러닝(결과)  (1) 2023.10.03
MIMIC 4 data set  (0) 2023.09.26

댓글