3 minute read


04.18 2주차 수업 내용 정리


Point of Sale (POS) 레지

  • 가게에서 자주 쓰이는 포스 레지에도 데이터베이스가 이용됨
    • 상품의 바코드를 읽어 오면 구입일자, 상품정보 등의 관련 정보가 데이터베이스에 저장됨
  • 수집한 데이터를 분석에 사용할 수 있음
    • 일별, 월별로 매출을 집계
    • 특정 조건에 맞는 데이터만을 추출
  • 특히, 판매 전략을 수립하는 것이 가능
    • 2차 이용
    • 연관규칙 마이닝(相関ルールマイニング, Association Rule Mining)을 적용



연관규칙 마이닝(相関ルールマイニング)

  • 데이터 마이닝 기술 중 하나
    • 시퀀셜 패턴 마이닝, 클러스터링 등의 기술이 존재
  • I = { }은 아이템의 집합, D = { }은 트랜잭션의 집합

  • 𝑿 ⟹ 𝒀 𝒘𝒉𝒆𝒓𝒆 𝑿, 𝒀 ∈ 𝑰, 𝑿 ∩ 𝒀 = ∅: 아이템 X가 구매되면 아이템 Y도 구매됨
  • D 중 S%의 트랜잭션에 X가 포함된다면 X는 지지도 s를 가짐 𝑠 ≡ sup(𝑋)
  • X에서 Y로의 확신도 c%란 D 중 X를 포함하는 트랜잭션의 안에서 Y도 동시에 포함될 백분율 𝑐 = 𝑐𝑜𝑛𝑓 𝑋 ⟹ 𝑌 = sup(𝑋 ∪ 𝑌) / sup(𝑋)



인문정보공학

  • 문자, 단어, 예술, 역사, 지리 등에 대한 다양한 정보를 디지털화해 분석한 후, 새로운 작품이나 가치를 창출해 내는 것
  • 인문자료의 수집은 비교적 진보되어 있음
    • 디지털 아카이브 기술이 발전
  • 한편, 아카이브되어 있는 데이터를 연구하는 일은 아직 많이 이루어지지 않음

  • 국서 데이터베이스: 국내외의 고문서 등 자료의 정보와 그 일부의 고화질 사진을 검색, 이용할 수 있음
  • ROIS-DS 인문학 오픈데이터 공동 이용 센터: 인문학 자료의 분석 또는 인문학연구의 성과를 기반으로 구축한 데이터셋의 활용


활용 예시 1: 구글 북스 Ngram 뷰어

  • n-gram은 자연어 처리에 자주 쓰이는 기술
    • 연속하는 n개의 단어나 문자의 모음을 보여 줌
  • 「今日はいい天気です」를 n-gram에 따라 나누면
    • 1-gram(unigram): 「今日」;「は」;「いい」;「天気」;「です」
    • 2-gram(bigram): 「今日」 「は」;「は」 「いい」;「いい」 「天気」;「天気」 「です」
    • 3-gram(trigram): 「今日」 「は」 「いい」;「は」 「いい」 「天気」;「いい」 「天気」 「です」
  • 구글 북스로부터 가져온 텍스트 정보를 n-gram을 기반으로 통계적 분석해, 시계열(일정 시간 간격으로 데이터를 배치)로 가시화함


활용 예시 2: 작가 스타일의 분석

  • 계량문체학(Stylometry): 문장 스타일 특징을 통계학적으로 분석해 작가를 특정하는 것



EMR 데이터베이스(電子カルテデータベース)

  • 종이 기록이 차트로 변하면서, 전자 차트가 대규모 병원을 중심으로 쓰이고 있음
  • 전자 차트는 비용 절감을 기대할 수 있음 (1차 이용)
    • 대상이 되는 환자의 검색이나 의사 지시의 이력 열람을 고속으로 가능하게 함
  • 의료 기관에 의해 집약한 데이터의 분석에 의한 의료 지원 역시 기대할 수 있음(2차 이용)


데이터 분석의 대상

  • 텍스트(자연어)
    • 텍스트 마이닝 기술이나 대규모 언어 모델을 이용해 전자 차트 데이터를 분석
      • 예시: 환자의 증상 발견, 입원 기록 자동작성 기능 등
  • 이미지
    • CT, MRI 검사 결과 등을 기반으로 진단
  • 의료지시
    • 의료 지식에 의존하지 않고, 환자 치료의 패턴을 발견


입원 치료의 흐름(클리니컬 패스)

  • 환자를 치료하기 위한 전형적인 의료 지시의 열
  • 의료 스태프에 있어 치료 방법의 가이드라인으로써 이용되고 있으며, 지금까지는 의료 스태프의 경험으로부터 수동으로 작성되어 왔음
  • 컴퓨터를 베이스로 한 클리니컬 패스의 추출
    • EMR 데이터베이스로부터 시퀀셜 패턴 마이닝(SPM, Sequential Pattern Mining)을 적용해 클리니컬 패스가 될 수 있는 후보 몇 가지를 추출 가능


SPM & 클로즈 SPM

  • 최소 지시도보다 낮은 출현 빈도를 가지는 시퀀스를 분석 대상에서 제외함
  • 기본 SPM은 중복되는 패턴을 다수 추출하는데, 클로즈 SPM은 동일한 지지도를 가지는 패턴 중 최장 패턴만을 추출해 중복을 제거함


ERM에 SPM을 적용한 케이스

  • 기존 클리니컬 패스의 검토, 수정
    • 추출한 클리니컬 패스와 비교하여 나은 쪽을 선택
  • 특정 질환의 치료 과정에서, 개별 환자에게 다음 단계의 의료 지시를 추천함
    • 추출된 클리니컬 패스를 환자의 기존 의료 이력과 비교
  • 가시화 기술이나 클리니컬 패스의 정량적인 비교, 요인 추정
    • 후보 클리니컬 패스가 너무 많으므로, 유효한 의료 지원을 위해서는 클리니컬 패스의 차별화가 필요


의료 지시의 표현

  • 의료 지시를 포함하여 전자 차트 데이터에 SPM을 적용하기 위해, 의료 지시 오더를 적절하게 표현할 필요가 있음
  • 의료 지시는 아래의 4개 필드로 표현
    • 클래스: 의료 지시의 종류(주사, 검사, 수술, 처방 등)
    • 설명: 클래스의 상세 정보(내복약, 외복약 등)
    • 코드: 약효 코드(혈액대용제(血液代用剤)331 등)
    • 이름: 약의 이름


순차 패턴 변형(시퀀셜 패턴 배리언트, SV)

  • 실험 결과, 빈출 시퀀스 패턴은 공통적인 패턴을 포함하는 경우가 많음
    • 이를 SPV라고 함
  • SV란 빈출 시퀀스 패턴 내에서 의료 지시의 분기를 나타냄

  • SV가 다수 존재하기 때문에, 정량적인 비교가 가능하다면 SV 간 구별이 가능해짐
    • 분기한 이유를 알고 싶음 -> 분기의 요인 추정
    • SV의 정량적인 평가 -> 정량적인 지표로 SPV를 차별화
  • 이를 통해 의료 옵션을 선택하는 것이 가능해짐

  • 각 의료 기관의 데이터를 대조해 SPM으로 빈출 패턴 SV를 추출
  • 공통 노드 수에 대해 SV 간의 거리를 계산해, 클러스터링을 실시
  • 클러스터 내에서 LCSV를 계산, MSV를 작성해 공통점과 차이점을 가시화함
    • LCSV(Longest Common Subsequence Variant): 여러 시퀀스(환자의 클리니컬 패스 등)에서 공통적으로 나타나는 가장 긴 부분 시퀀스의 변형
      • 예시: 여러 환자에게서 자주 나타나는 치료 순서를 찾을 때, 순서가 완전히 같지 않더라도, 또는 순서만 같고 간혹 일부 생략된 패턴이 있어도 유사한 패턴으로 간주함
      • 목적: 유사한 경로를 하나의 그룹으로 묶기 위함
    • MSV(Main Sequential Variant): 하나의 클러스터(예시: LCSV를 공유하는 환자 집단) 내에서 가장 대표적인 시퀀스