코딩항해기
[기초] 문자 인코딩 본문
문자 인코딩
문자 인코딩은 컴퓨터가 이해할 수 있는 이진수로 문자를 변환하는 방식이다. 컴퓨터는 모든 데이터를 0과 1로 처리하기 때문에, 우리가 사용하는 문자를 컴퓨터가 이해할 수 있는 숫자로 변환해야 한다.
ASCII
가장 기본적인 인코딩 방식으로, 영문 알파벳과 숫자, 일부 특수문자를 7비트로 표현한다. 총 128개의 문자를 표현할 수 있으며, 확장 ASCII는 8비트를 사용하여 256개의 문자를 표현한다.
EUC-KR
한글을 표현하기 위한 초기 인코딩 방식이다. 완성형 한글을 지원하지만, 현대 한글의 모든 조합을 표현할 수 없다는 한계가 있다.
UTF-8
현재 가장 널리 사용되는 유니코드 인코딩 방식이다. 영문은 1바이트, 한글은 3바이트로 표현하며, 전 세계의 거의 모든 문자를 표현할 수 있다. 가변 길이 인코딩 방식을 사용하여 저장 공간을 효율적으로 활용한다.
인코딩 관련 문제
깨진 문자 발생 원인
- 파일을 저장할 때의 인코딩 방식과 읽을 때의 인코딩 방식이 다른 경우
- 웹 페이지의 메타 태그와 실제 인코딩이 일치하지 않는 경우
- 데이터베이스의 문자셋과 애플리케이션의 인코딩이 다른 경우
해결 방법
- 파일의 인코딩 방식 통일
- 웹 페이지에서 적절한 메타 태그 설정
- 데이터베이스 문자셋 설정 확인
- 개발 도구의 인코딩 설정 확인
UTF-8 표준 이유
모든 유니코드 문자가 표현 가능하고 영문자에 대해 효율적인 저장 공간을 사용가능하며, 호환성이 뛰어난 장점이 있어 인터넷 표준으로 사용된다.
'기타 > 기초 지식' 카테고리의 다른 글
[기초] HTTP (0) | 2025.01.02 |
---|---|
[기초] 인터넷 동작 방식 (0) | 2025.01.01 |
[기초] 데브옵스 DevOps (0) | 2024.12.29 |
[기초] 안전한 원격 접속 표준 SSH (0) | 2024.12.27 |
[기초] Node.js 패키지 관리자, npm yarn (0) | 2024.12.23 |