자연어 처리를 위한 전처리 과정은, 일반적인 데이터 형식에서 쓰이는 정수, 실수, 문자열의 전처리 과정과 차이가 있다. 정수, 실수로 이루어져있는 데이터프레임을 다룬다고 하면, 보통 결측값을 채워주고, 정규화 혹은 표준화를 하고, 그 외에 특성 공학을 이용하여 차원을 확장하거나 축소할 것이다. 문자열이라면 원 핫 인코딩을, 범주형 데이터라면 ordinal 인코딩을 또 할 수 있을 것이다. 자연어는 다르다. 문장으로 이루어진 데이터를 처리하기 위해서는, 각 단어들을 벡터 공간 안에 할당해야 한다. 그렇다고 해서, '나는 자연어 처리를 하고 있습니다.' 라는 문장을 ['나는', '자연어', '처리를', '하고', '있습니다']와 같이 할당해서는 안되는데, 내가 이해한 바로는 그 이유는 두 가지가 있다. 첫째..