[데이터베이스설계론] 2주차 수업 내용 정리

3 minute read

04.18 2주차 수업 내용 정리

Point of Sale (POS) 레지

가게에서 자주 쓰이는 포스 레지에도 데이터베이스가 이용됨
- 상품의 바코드를 읽어 오면 구입일자, 상품정보 등의 관련 정보가 데이터베이스에 저장됨
수집한 데이터를 분석에 사용할 수 있음
- 일별, 월별로 매출을 집계
- 특정 조건에 맞는 데이터만을 추출
특히, 판매 전략을 수립하는 것이 가능
- 2차 이용
- 연관규칙 마이닝(相関ルールマイニング, Association Rule Mining)을 적용

연관규칙 마이닝(相関ルールマイニング)

데이터 마이닝 기술 중 하나
- 시퀀셜 패턴 마이닝, 클러스터링 등의 기술이 존재
I = { }은 아이템의 집합, D = { }은 트랜잭션의 집합
𝑿 ⟹ 𝒀 𝒘𝒉𝒆𝒓𝒆 𝑿, 𝒀 ∈ 𝑰, 𝑿 ∩ 𝒀 = ∅: 아이템 X가 구매되면 아이템 Y도 구매됨
D 중 S%의 트랜잭션에 X가 포함된다면 X는 지지도 s를 가짐 𝑠 ≡ sup(𝑋)
X에서 Y로의 확신도 c%란 D 중 X를 포함하는 트랜잭션의 안에서 Y도 동시에 포함될 백분율 𝑐 = 𝑐𝑜𝑛𝑓 𝑋 ⟹ 𝑌 = sup(𝑋 ∪ 𝑌) / sup(𝑋)

인문정보공학

문자, 단어, 예술, 역사, 지리 등에 대한 다양한 정보를 디지털화해 분석한 후, 새로운 작품이나 가치를 창출해 내는 것
인문자료의 수집은 비교적 진보되어 있음
- 디지털 아카이브 기술이 발전
한편, 아카이브되어 있는 데이터를 연구하는 일은 아직 많이 이루어지지 않음
국서 데이터베이스: 국내외의 고문서 등 자료의 정보와 그 일부의 고화질 사진을 검색, 이용할 수 있음
ROIS-DS 인문학 오픈데이터 공동 이용 센터: 인문학 자료의 분석 또는 인문학연구의 성과를 기반으로 구축한 데이터셋의 활용

활용 예시 1: 구글 북스 Ngram 뷰어

n-gram은 자연어 처리에 자주 쓰이는 기술
- 연속하는 n개의 단어나 문자의 모음을 보여 줌
「今日はいい天気です」를 n-gram에 따라 나누면
- 1-gram(unigram): 「今日」；「は」；「いい」；「天気」；「です」
- 2-gram(bigram): 「今日」「は」；「は」「いい」；「いい」「天気」；「天気」「です」
- 3-gram(trigram): 「今日」「は」「いい」；「は」「いい」「天気」；「いい」「天気」「です」
구글 북스로부터 가져온 텍스트 정보를 n-gram을 기반으로 통계적 분석해, 시계열(일정 시간 간격으로 데이터를 배치)로 가시화함

활용 예시 2: 작가 스타일의 분석

계량문체학(Stylometry): 문장 스타일 특징을 통계학적으로 분석해 작가를 특정하는 것

EMR 데이터베이스(電子カルテデータベース)

종이 기록이 차트로 변하면서, 전자 차트가 대규모 병원을 중심으로 쓰이고 있음
전자 차트는 비용 절감을 기대할 수 있음 (1차 이용)
- 대상이 되는 환자의 검색이나 의사 지시의 이력 열람을 고속으로 가능하게 함
의료 기관에 의해 집약한 데이터의 분석에 의한 의료 지원 역시 기대할 수 있음(2차 이용)

데이터 분석의 대상

텍스트(자연어)
- 텍스트 마이닝 기술이나 대규모 언어 모델을 이용해 전자 차트 데이터를 분석
  - 예시: 환자의 증상 발견, 입원 기록 자동작성 기능 등
이미지
- CT, MRI 검사 결과 등을 기반으로 진단
의료지시
- 의료 지식에 의존하지 않고, 환자 치료의 패턴을 발견

입원 치료의 흐름(클리니컬 패스)

환자를 치료하기 위한 전형적인 의료 지시의 열
의료 스태프에 있어 치료 방법의 가이드라인으로써 이용되고 있으며, 지금까지는 의료 스태프의 경험으로부터 수동으로 작성되어 왔음
컴퓨터를 베이스로 한 클리니컬 패스의 추출
- EMR 데이터베이스로부터 시퀀셜 패턴 마이닝(SPM, Sequential Pattern Mining)을 적용해 클리니컬 패스가 될 수 있는 후보 몇 가지를 추출 가능

SPM & 클로즈 SPM

최소 지시도보다 낮은 출현 빈도를 가지는 시퀀스를 분석 대상에서 제외함
기본 SPM은 중복되는 패턴을 다수 추출하는데, 클로즈 SPM은 동일한 지지도를 가지는 패턴 중 최장 패턴만을 추출해 중복을 제거함

ERM에 SPM을 적용한 케이스

기존 클리니컬 패스의 검토, 수정
- 추출한 클리니컬 패스와 비교하여 나은 쪽을 선택
특정 질환의 치료 과정에서, 개별 환자에게 다음 단계의 의료 지시를 추천함
- 추출된 클리니컬 패스를 환자의 기존 의료 이력과 비교
가시화 기술이나 클리니컬 패스의 정량적인 비교, 요인 추정
- 후보 클리니컬 패스가 너무 많으므로, 유효한 의료 지원을 위해서는 클리니컬 패스의 차별화가 필요

의료 지시의 표현

의료 지시를 포함하여 전자 차트 데이터에 SPM을 적용하기 위해, 의료 지시 오더를 적절하게 표현할 필요가 있음
의료 지시는 아래의 4개 필드로 표현
- 클래스: 의료 지시의 종류(주사, 검사, 수술, 처방 등)
- 설명: 클래스의 상세 정보(내복약, 외복약 등)
- 코드: 약효 코드(혈액대용제(血液代用剤)331 등)
- 이름: 약의 이름

순차 패턴 변형(시퀀셜 패턴 배리언트, SV)

실험 결과, 빈출 시퀀스 패턴은 공통적인 패턴을 포함하는 경우가 많음
- 이를 SPV라고 함
SV란 빈출 시퀀스 패턴 내에서 의료 지시의 분기를 나타냄
SV가 다수 존재하기 때문에, 정량적인 비교가 가능하다면 SV 간 구별이 가능해짐
- 분기한 이유를 알고 싶음 -> 분기의 요인 추정
- SV의 정량적인 평가 -> 정량적인 지표로 SPV를 차별화
이를 통해 의료 옵션을 선택하는 것이 가능해짐
각 의료 기관의 데이터를 대조해 SPM으로 빈출 패턴 SV를 추출
공통 노드 수에 대해 SV 간의 거리를 계산해, 클러스터링을 실시
클러스터 내에서 LCSV를 계산, MSV를 작성해 공통점과 차이점을 가시화함
- LCSV(Longest Common Subsequence Variant): 여러 시퀀스(환자의 클리니컬 패스 등)에서 공통적으로 나타나는 가장 긴 부분 시퀀스의 변형
  - 예시: 여러 환자에게서 자주 나타나는 치료 순서를 찾을 때, 순서가 완전히 같지 않더라도, 또는 순서만 같고 간혹 일부 생략된 패턴이 있어도 유사한 패턴으로 간주함
  - 목적: 유사한 경로를 하나의 그룹으로 묶기 위함
- MSV(Main Sequential Variant): 하나의 클러스터(예시: LCSV를 공유하는 환자 집단) 내에서 가장 대표적인 시퀀스

Share on

Twitter Facebook LinkedIn

doi

[데이터베이스설계론] 2주차 수업 내용 정리

04.18 2주차 수업 내용 정리

Point of Sale (POS) 레지

연관규칙 마이닝(相関ルールマイニング)

인문정보공학

활용 예시 1: 구글 북스 Ngram 뷰어

활용 예시 2: 작가 스타일의 분석

EMR 데이터베이스(電子カルテデータベース)

데이터 분석의 대상

입원 치료의 흐름(클리니컬 패스)

SPM & 클로즈 SPM

ERM에 SPM을 적용한 케이스

의료 지시의 표현

순차 패턴 변형(시퀀셜 패턴 배리언트, SV)

Share on

You may also enjoy

[데이터베이스설계론] 8주차 수업 내용 정리

[데이터베이스설계론] 7주차 수업 내용 정리

[함수형언어] 5주차 수업 내용 정리

[함수형언어] 4주차 수업 내용 정리