🔗 관련 문서: Wikipedia - 특징 (기계 학습)
특징은 데이터를 설명하는 개별적이고 측정 가능한 속성 또는 변수로, 머신러닝과 데이터 분석에서 입력 데이터를 수치적으로 표현하는 기본 단위이다. 공학 분야에서는 시스템의 상태나 현상을 정량화하여 분석 및 예측에 활용한다.
특징은 데이터 샘플을 설명하는 측정 가능한 속성을 의미한다. 데이터를 숫자 형태로 표현하여 컴퓨터가 처리할 수 있도록 하며, 일반적으로 특징 벡터(feature vector) 형태로 구성된다.
예를 들어, 건물의 구조 안전성을 평가하는 경우 다음과 같은 특징들을 고려할 수 있다.
• 건물 높이 (m): 45 m
• 기둥 단면적 (m²): 0.6 m2
• 콘크리트 압축강도 (MPa): 30 MPa
• 철근 항복강도 (MPa): 400 MPa
• 건물 연령 (년): 15년
이러한 특징들은 하나의 벡터로 표현되어 [45, 0.6, 30, 400, 15]와 같은 형태가 된다.
가. 수치형 특징 (Numerical Feature)
연속적인 값을 가지는 특징으로, 숫자로 표현된다. 공학 분야에서 가장 흔하게 사용되는 특징 유형이다.
• 온도, 압력, 속도, 응력, 변형률 등
• 예: 재료의 탄성계수 = 200 GPa
나. 범주형 특징 (Categorical Feature)
불연속적인 범주(Category)나 클래스(Class)를 나타내는 특징으로, 일반적으로 임베딩하여(즉, 숫자로 인코딩하여) 사용한다.
• 재료 종류 (강재, 콘크리트, 목재 등)
• 토질 분류 (사질토, 점토, 암반 등)
• 예: 토질 분류 = {1: 사질토, 2: 점토, 3: 암반}
다. 이진 특징 (Binary Feature)
두 가지 상태만을 가지는 특징으로, 0 또는 1로 표현된다.
• 결함 유무 (있음/없음)
• 안전 기준 만족 여부 (만족/불만족)
• 예: 균열 발생 = {0: 없음, 1: 있음}
라. 순서형 특징 (Ordinal Feature)
범주형 특징 중 순서가 의미를 가지는 경우를 말한다.
• 손상 등급 (경미, 보통, 심각)
• 지진 강도 등급 (I ~ XII)
• 예: 부식 정도 = {1: 경미, 2: 보통, 3: 심각}
▶ 구조공학
구조물의 거동을 예측하고 안전성을 평가하기 위한 특징들을 사용한다.
• 기하학적 특징: 부재 길이, 단면 치수, 슬래브 두께
• 재료 특징: 탄성계수, 항복강도, 포아송 비
• 하중 특징: 고정하중, 활하중, 지진하중
• 응답 특징: 처짐, 응력, 고유진동수
▶ 지반공학
지반의 물리적·역학적 특성을 나타내는 특징들을 활용한다.
• 물리적 특징: 단위중량, 함수비, 입도분포
• 역학적 특징: 점착력, 내부마찰각, 전단강도
• 압밀 특징: 압축지수, 압밀계수
• 투수 특징: 투수계수, 공극비
▶ 기계공학
기계 시스템의 성능과 상태를 나타내는 특징들을 사용한다.
• 진동 특징: 주파수, 진폭, 위상
• 열적 특징: 온도, 열전달계수, 열팽창계수
• 운동학적 특징: 속도, 가속도, 토크
• 상태 감시 특징: 진동 스펙트럼, 온도 분포
▶ 전기·전자공학
전기·전자 시스템을 정량화하는 특징들을 활용한다.
• 전기적 특징: 전압, 전류, 저항, 임피던스
• 신호 특징: 주파수, 진폭, 위상, 고조파
• 전력 특징: 유효전력, 무효전력, 역률
• 품질 특징: THD(총고조파왜율), 잡음비
▶ 교량 상태 평가
교량의 안전성을 평가하기 위해 다양한 특징들을 수집하고 분석한다.
| 특징 유형 | 구체적 특징 | 측정값 예시 |
|---|---|---|
| 구조적 특징 | 경간장, 거더 높이 | 40 m, 2.5 m |
| 재료 특징 | 콘크리트 강도, 철근 등급 | 35 MPa, SD400 |
| 손상 특징 | 균열 폭, 부식 면적 | 0.3 mm, 5% |
| 동적 특징 | 고유진동수, 감쇠비 | 2.5 Hz, 0.03 |
| 환경 특징 | 교통량, 사용연수 | 15,000대/일, 25년 |
▶ 지진 피해 예측
건물의 지진 피해 정도를 예측하기 위한 특징 벡터 구성 사례:
특징 벡터 = [층수, 건축년도, 건물면적, 구조형식, 지반종류, 진앙거리, 지진규모]
예: [5, 1995, 800, 1, 2, 15, 6.5]
(5층, 1995년 건축, 800m², 철근콘크리트(1), S2지반(2), 진앙거리 15km, 규모 6.5)
▶ 터빈 고장 진단
회전 기계의 상태를 진단하기 위해 진동 신호에서 추출한 특징들:
• 시간 영역 특징: RMS(제곱평균제곱근), 첨두값, 파고율
• 주파수 영역 특징: 회전 주파수 성분, 고조파 성분, 스펙트럼 중심
• 시간-주파수 특징: 웨이블릿 계수, 포락선 스펙트럼
▶ 특징 선택 (Feature Selection)
모든 특징이 예측이나 분류에 동등하게 기여하는 것은 아니다. 특징 선택은 모델 성능에 중요한 특징만을 선별하는 과정이다.
• 필터 방법: 통계적 측정(상관계수, 정보이득 등)을 사용
• 래퍼 방법: 모델 성능을 기준으로 특징 조합 평가
• 임베디드 방법: 모델 학습 과정에서 특징 선택 수행
▶ 특징 스케일링 (Feature Scaling)
특징들의 척도가 다를 경우, 일부 알고리즘은 큰 값을 가진 특징에 편향될 수 있다. 따라서 정규화(normalization) 또는 표준화(standardization)가 필요하다.
• 정규화: 특징값을 0~1 범위로 변환
\[ x' = \frac{x - x_{\min}}{x_{\max} - x_{\min}} \]
• 표준화: 평균 0, 표준편차 1로 변환
\[ x' = \frac{x - \mu}{\sigma} \]
▶ 특징 엔지니어링 (Feature Engineering)
원시 데이터로부터 새로운 특징을 생성하거나 기존 특징을 변환하여 모델 성능을 향상시키는 과정이다.
• 다항식 특징: \( x_1, x_2 \rightarrow x_1^2, x_1 x_2, x_2^2 \)
• 비율 특징: \( \frac{\text{하중}}{\text{면적}} = \text{응력} \)
• 로그 변환: 왜도가 큰 데이터의 정규분포화
• 도메인 지식 활용: 응력집중계수, 안전율 등 공학적 지표
▶ 차원의 저주 (Curse of Dimensionality) [Link]
특징의 개수가 지나치게 많으면 학습 데이터가 고차원 공간에 희소하게 분포하여 모델 성능이 저하된다. 이를 해결하기 위해 차원 축소 기법을 사용한다.
• PCA (주성분 분석): 분산이 큰 주성분만 선택
• LDA (선형판별분석): 클래스 분리에 유용한 특징 추출
• 오토인코더: 신경망을 통한 비선형 차원 축소
[Note]▶ 특징 분리(Feature Separation)
[Note]▶ 특징 추출(Feature Extraction)
[Note]▶ 차원 축소(Dimensionality Reduction)
효과적인 머신러닝 모델을 구축하기 위해서는 다음과 같은 조건을 만족하는 특징을 선택해야 한다:
공학 분야에서는 특히 물리적 의미가 명확한 특징을 선호하며, 이는 모델의 신뢰성과 실용성을 높이는 데 중요한 역할을 한다.
예: 모드형상(mode shapes)