[데이터베이스설계론] 2주차 수업 내용 정리
04.18 2주차 수업 내용 정리
Point of Sale (POS) 레지
- 가게에서 자주 쓰이는 포스 레지에도 데이터베이스가 이용됨
- 상품의 바코드를 읽어 오면 구입일자, 상품정보 등의 관련 정보가 데이터베이스에 저장됨
- 수집한 데이터를 분석에 사용할 수 있음
- 일별, 월별로 매출을 집계
- 특정 조건에 맞는 데이터만을 추출
- 특히, 판매 전략을 수립하는 것이 가능
- 2차 이용
- 연관규칙 마이닝(相関ルールマイニング, Association Rule Mining)을 적용
연관규칙 마이닝(相関ルールマイニング)
- 데이터 마이닝 기술 중 하나
- 시퀀셜 패턴 마이닝, 클러스터링 등의 기술이 존재
-
I = { }은 아이템의 집합, D = { }은 트랜잭션의 집합
𝑿 ⟹ 𝒀 𝒘𝒉𝒆𝒓𝒆 𝑿, 𝒀 ∈ 𝑰, 𝑿 ∩ 𝒀 = ∅
: 아이템 X가 구매되면 아이템 Y도 구매됨- D 중 S%의 트랜잭션에 X가 포함된다면 X는 지지도 s를 가짐
𝑠 ≡ sup(𝑋)
- X에서 Y로의 확신도 c%란 D 중 X를 포함하는 트랜잭션의 안에서 Y도 동시에 포함될 백분율
𝑐 = 𝑐𝑜𝑛𝑓 𝑋 ⟹ 𝑌 = sup(𝑋 ∪ 𝑌) / sup(𝑋)
인문정보공학
- 문자, 단어, 예술, 역사, 지리 등에 대한 다양한 정보를 디지털화해 분석한 후, 새로운 작품이나 가치를 창출해 내는 것
- 인문자료의 수집은 비교적 진보되어 있음
- 디지털 아카이브 기술이 발전
-
한편, 아카이브되어 있는 데이터를 연구하는 일은 아직 많이 이루어지지 않음
- 국서 데이터베이스: 국내외의 고문서 등 자료의 정보와 그 일부의 고화질 사진을 검색, 이용할 수 있음
- ROIS-DS 인문학 오픈데이터 공동 이용 센터: 인문학 자료의 분석 또는 인문학연구의 성과를 기반으로 구축한 데이터셋의 활용
활용 예시 1: 구글 북스 Ngram 뷰어
- n-gram은 자연어 처리에 자주 쓰이는 기술
- 연속하는 n개의 단어나 문자의 모음을 보여 줌
- 「今日はいい天気です」를 n-gram에 따라 나누면
- 1-gram(unigram): 「今日」;「は」;「いい」;「天気」;「です」
- 2-gram(bigram): 「今日」 「は」;「は」 「いい」;「いい」 「天気」;「天気」 「です」
- 3-gram(trigram): 「今日」 「は」 「いい」;「は」 「いい」 「天気」;「いい」 「天気」 「です」
- 구글 북스로부터 가져온 텍스트 정보를 n-gram을 기반으로 통계적 분석해, 시계열(일정 시간 간격으로 데이터를 배치)로 가시화함
활용 예시 2: 작가 스타일의 분석
- 계량문체학(Stylometry): 문장 스타일 특징을 통계학적으로 분석해 작가를 특정하는 것
EMR 데이터베이스(電子カルテデータベース)
- 종이 기록이 차트로 변하면서, 전자 차트가 대규모 병원을 중심으로 쓰이고 있음
- 전자 차트는 비용 절감을 기대할 수 있음 (1차 이용)
- 대상이 되는 환자의 검색이나 의사 지시의 이력 열람을 고속으로 가능하게 함
- 의료 기관에 의해 집약한 데이터의 분석에 의한 의료 지원 역시 기대할 수 있음(2차 이용)
데이터 분석의 대상
- 텍스트(자연어)
- 텍스트 마이닝 기술이나 대규모 언어 모델을 이용해 전자 차트 데이터를 분석
- 예시: 환자의 증상 발견, 입원 기록 자동작성 기능 등
- 텍스트 마이닝 기술이나 대규모 언어 모델을 이용해 전자 차트 데이터를 분석
- 이미지
- CT, MRI 검사 결과 등을 기반으로 진단
- 의료지시
- 의료 지식에 의존하지 않고, 환자 치료의 패턴을 발견
입원 치료의 흐름(클리니컬 패스)
- 환자를 치료하기 위한 전형적인 의료 지시의 열
- 의료 스태프에 있어 치료 방법의 가이드라인으로써 이용되고 있으며, 지금까지는 의료 스태프의 경험으로부터 수동으로 작성되어 왔음
- 컴퓨터를 베이스로 한 클리니컬 패스의 추출
- EMR 데이터베이스로부터 시퀀셜 패턴 마이닝(SPM, Sequential Pattern Mining)을 적용해 클리니컬 패스가 될 수 있는 후보 몇 가지를 추출 가능
SPM & 클로즈 SPM
- 최소 지시도보다 낮은 출현 빈도를 가지는 시퀀스를 분석 대상에서 제외함
- 기본 SPM은 중복되는 패턴을 다수 추출하는데, 클로즈 SPM은 동일한 지지도를 가지는 패턴 중 최장 패턴만을 추출해 중복을 제거함
ERM에 SPM을 적용한 케이스
- 기존 클리니컬 패스의 검토, 수정
- 추출한 클리니컬 패스와 비교하여 나은 쪽을 선택
- 특정 질환의 치료 과정에서, 개별 환자에게 다음 단계의 의료 지시를 추천함
- 추출된 클리니컬 패스를 환자의 기존 의료 이력과 비교
- 가시화 기술이나 클리니컬 패스의 정량적인 비교, 요인 추정
- 후보 클리니컬 패스가 너무 많으므로, 유효한 의료 지원을 위해서는 클리니컬 패스의 차별화가 필요
의료 지시의 표현
- 의료 지시를 포함하여 전자 차트 데이터에 SPM을 적용하기 위해, 의료 지시 오더를 적절하게 표현할 필요가 있음
- 의료 지시는 아래의 4개 필드로 표현
- 클래스: 의료 지시의 종류(주사, 검사, 수술, 처방 등)
- 설명: 클래스의 상세 정보(내복약, 외복약 등)
- 코드: 약효 코드(혈액대용제(血液代用剤)331 등)
- 이름: 약의 이름
순차 패턴 변형(시퀀셜 패턴 배리언트, SV)
- 실험 결과, 빈출 시퀀스 패턴은 공통적인 패턴을 포함하는 경우가 많음
- 이를 SPV라고 함
-
SV란 빈출 시퀀스 패턴 내에서 의료 지시의 분기를 나타냄
- SV가 다수 존재하기 때문에, 정량적인 비교가 가능하다면 SV 간 구별이 가능해짐
- 분기한 이유를 알고 싶음 -> 분기의 요인 추정
- SV의 정량적인 평가 -> 정량적인 지표로 SPV를 차별화
-
이를 통해 의료 옵션을 선택하는 것이 가능해짐
- 각 의료 기관의 데이터를 대조해 SPM으로 빈출 패턴 SV를 추출
- 공통 노드 수에 대해 SV 간의 거리를 계산해, 클러스터링을 실시
- 클러스터 내에서 LCSV를 계산, MSV를 작성해 공통점과 차이점을 가시화함
- LCSV(Longest Common Subsequence Variant): 여러 시퀀스(환자의 클리니컬 패스 등)에서 공통적으로 나타나는 가장 긴 부분 시퀀스의 변형
- 예시: 여러 환자에게서 자주 나타나는 치료 순서를 찾을 때, 순서가 완전히 같지 않더라도, 또는 순서만 같고 간혹 일부 생략된 패턴이 있어도 유사한 패턴으로 간주함
- 목적: 유사한 경로를 하나의 그룹으로 묶기 위함
- MSV(Main Sequential Variant): 하나의 클러스터(예시: LCSV를 공유하는 환자 집단) 내에서 가장 대표적인 시퀀스
- LCSV(Longest Common Subsequence Variant): 여러 시퀀스(환자의 클리니컬 패스 등)에서 공통적으로 나타나는 가장 긴 부분 시퀀스의 변형