'데이터 사이언스/자연어 처리' 카테고리의 글 목록

2. 자연어처리 - 토큰화, 벡터화, TF-IDF

자연어 처리를 위한 전처리 과정은, 일반적인 데이터 형식에서 쓰이는 정수, 실수, 문자열의 전처리 과정과 차이가 있다. 정수, 실수로 이루어져있는 데이터프레임을 다룬다고 하면, 보통 결측값을 채워주고, 정규화 혹은 표준화를 하고, 그 외에 특성 공학을 이용하여 차원을 확장하거나 축소할 것이다. 문자열이라면 원 핫 인코딩을, 범주형 데이터라면 ordinal 인코딩을 또 할 수 있을 것이다. 자연어는 다르다. 문장으로 이루어진 데이터를 처리하기 위해서는, 각 단어들을 벡터 공간 안에 할당해야 한다. 그렇다고 해서, '나는 자연어 처리를 하고 있습니다.' 라는 문장을 ['나는', '자연어', '처리를', '하고', '있습니다']와 같이 할당해서는 안되는데, 내가 이해한 바로는 그 이유는 두 가지가 있다. 첫째..

데이터 사이언스/자연어 처리 2022.06.29

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

De plus en plus

데이터 사이언스/자연어 처리 2

티스토리툴바