RSS DEV 커뮤니티

C에서 UTF-8 문자를 문자별로 읽는 방법

제공된 코드는 파일을 읽고 콘솔에 UTF-8 문자를 처리하여 내용을 인쇄하는 데 사용됩니다. utf8_length 함수를 사용하여 각 문자의 길이를 확인합니다. 이 함수는 각 문자의 바이너리 표현을 확인하여 1, 2, 3 또는 4바이트 UTF-8 문자인지 확인하고, 해당하는 길이를 반환합니다. main 함수는 파일을 문자열 단위로 읽고, utf8_length 함수를 사용하여 각 문자의 길이를 확인한 후, 콘솔에 전체 문자를 인쇄합니다. 테스트 파일에는 ASCII가 아닌 문자, 예를 들어 이모지, 악센트가 있는 문자, 다양한 언어의 문자 등이 포함되어 UTF-8 인코딩 처리 능력을 테스트합니다.
favicon
dev.to
Reading UTF-8 char by char in C