[핵심 속성] 인공지능 모델의 성능을 높일 때 레이블 속성을 예측하는 데 필요한 속성
<상관관계> 두 속성 중 한쪽이 변화하면 다른 한쪽도 따라서 변화하는 관계
[양의 상관관계] 한 속성이 변화하면 다른 속성도 같은 방향으로 변화하는 관계
[음의 상관관계] 한 속성이 변화하면 다른 속성은 다른 방향으로 변화하는 관계
[상관관계 없음] 한 속성이 변화에도 다른 속성은 변화하지 않는 관계
[순서형 속성] 관찰 대상에 정도의 변화가 있는 속성 / 대상의 순서를 나타낸 속성
[범주형 속성] 범주를 나타내는 데이터
[정형 데이터] 미리 정해진 구조에 따라 체계적으로 정리할 수 있는 데이터
[비정형 데이터] 구조가 미리 정해져 있지 않아 정형화된 형식으로 저장되지 않는 데이터
[평균값] 측정값을 전부 더하여 그 개수로 나눈 값
[중앙값] 자료를 크기 순서대로 배열했을 때 중앙에 위치하는 값
[최빈값] 주어진 자료 중 가장 많은 빈도로 나타나는 값
데이터는 보통 전체의 80%를 훈련에 사용하고 20%는 테스트용으로 사용한다.
<알고리즘의 종류>
- K-최근접 이웃(K-NN: K-Nearest Neighbor)
- 의사 결정 트리(Decision Tree)
- 나이브 베이즈(Naive Bayes)
- 서포트 벡터 머신(SVM: Support Vector Machine)
[정확도] = $\frac{레이블과 비교하여 정답인 결과}{테스트 데이터의 전체 샘플 수}×100$
<데이터 수집 사이트>
- 공공 데이터 포털(Data Portal) {행정안전부}
- 캐글(kaggle) {예측 모델 및 분석 대회를 위한 플랫폼}
- 네이버 데이터랩
기계학습 모델은 제조, 의료, 마케팅, 영업, 운송 등 다양한 분야에서 사용됨
<사회적 문제 해결>
- 환경 문제
- 멸종 위기 동물 관찰
- 벌목 탐지와 숲 생애주기 관리
- 기후 변화 예측
- 미세먼지 관리
- 지진, 산불 등 자연재해 대응
- 생활 문제
- 시각 장애인, 저시력자들을 위한 정보 접근성 향상
- 교육 불균형 해소
- 과중한 노동, 위험한 직종 보호, 감정 노동 대체
- 식량 문제 해결
- 안전, 교통 문제
- 산업 안전, 범죄 방지, 긴급 구조
- 도로, 대중교통 등 교통 호나경 개선
- 불법 주차 단속, 주차 위치 탐색
- 자율 주행 자동차
- 건강 문제
- 개인 질병 진단, 예측 관리
- 원격 환자 관리
- 정신 상담, 뇌 인지 분석
- 바이러스 예측 관리, 백신 개발
<인공지능의 양면성>
- 긍정적인 영향: 인간과 로봇이 협업하면서 생산성이 늘어남
- 부정적인 영향: 사생활 침해
인공지능은 매개체다. 목표를 설정하고, 인공지능을 학습시키며, 기준을 적용하고 가치를 판단하는 일은 인간의 몫이다.
[데이터 편향성] 학습에 사용되는 데이터가 한쪽으로 치우친 성질을 가지고 있는 것
[데이터 공정성] 편견이 들어가 있지 않고 한쪽으로 치우치지 않은 데이터의 성질
<다양한 공정 데이터 규칙>
- 아실로마 인공지능 원칙
- 마이크로소프트의 인공지능 원칙
- 구글의 인공지능 원칙
- 카카오의 알고리즘 윤리 헌장
[개발자] 인공지능을 개발하는 주체
[사용자] 개발자가 만든 인공지능을 최종적으로 사용하는 주체
[관리자] 인공지능 시스템을 실제적으로 운영하는 주체
2020년 12월 우리나라 인공지능 윤리 기준이 발표됨
<3대 기본 원칙>
- 인간 존엄성 원칙: 나쁜 영향을 미치면 안 됨
- 사회의 공공선 원칙: 사회적 약자와 취약 계층의 인공지능 접근성을 보장해야 함
- 기술의 합목적성 원칙: 인간에게 도움이 될 목적으로 개발 및 활용되어야 함
<인공지능 윤리 10대 요건>
- 인권 보장: 인간의 권리와 자유를 침해하도록 개발되거나 활용되면 안 됨
- 사생활 보호: 개인 정보의 오남용을 최소화하고, 개인의 사생활을 보호해야 함