ANSI 및 유니 코드와 같은 문자 인코딩은 무엇이며 어떻게 다른가요?

ASCII, UTF-8, ISO-8859 ...이 이상한 모니 커가 떠 다니는 것을 보았을 수도 있지만, 실제로 의미하는 것은 무엇입니까? 문자 인코딩이 무엇인지, 그리고이 두문자어가 화면에서 볼 수있는 평범한 텍스트와 어떻게 관련되어 있는지에 대해 읽어보십시오..

기초 빌딩 블록

우리가 쓰여진 언어에 관해 이야기 할 때, 우리는 글자가 단어의 구성 요소가되는 것을 이야기하고 문장과 단락 등을 만듭니다. 문자는 소리를 나타내는 기호입니다. 당신이 언어에 관해 말할 때, 당신은 일종의 의미를 형성하기 위해 모이는 소리들의 그룹에 대해 이야기하고 있습니다. 각 언어 시스템에는 이러한 의미를 관리하는 복잡한 규칙과 정의가 있습니다. 단어가있는 경우 어떤 언어인지 알지 못하면 해당 단어를 사용하는 다른 사람들과 함께 사용할 때까지는 쓸모가 없습니다..

(Grantha, Tulu 및 Malayalam 스크립트의 비교, Wikipedia의 이미지)

컴퓨터 세계에서 우리는 "문자"라는 용어를 사용합니다. 문자는 특정 매개 변수로 정의되는 추상적 개념의 일종이지만 의미의 기본 단위입니다. 라틴어 'A'는 그리스어 '알파'또는 아랍어 '알리프'와 동일하지 않습니다. 다른 문맥을 사용하기 때문에 (다른 언어를 사용하고 약간 다른 발음을 사용하기 때문에) 서로 다른 문자라고 말할 수 있습니다. 문자의 시각적 표현을 "글리프 (glyph)"라고하며, 여러 가지 글리프 집합을 글꼴이라고합니다. 문자 그룹은 "세트"또는 "레퍼토리"에 속합니다.

단락을 입력하고 글꼴을 변경하면 글자의 소리 나는 값이 변경되지 않고, 글자의 모양이 바뀝니다. 그것은 단지 화장품입니다 (그러나 중요하지는 않습니다!). 고대 이집트와 중국 같은 일부 언어에는 표의 문자가 있습니다. 이것들은 소리 대신에 전체 아이디어를 나타내며, 발음은 시간과 거리에 따라 변할 수 있습니다. 한 문자를 다른 문자로 대체하면 아이디어를 대체 할 수 있습니다. 그것은 단지 문자를 변경하는 것 그 이상입니다. 그것은 표의 문자를 바꾸는 것입니다..

문자 인코딩

(위키피디아의 이미지)

키보드에 무언가를 입력하거나 파일을로드 할 때 컴퓨터가 표시 할 내용을 어떻게 알 수 있습니까? 문자 인코딩이 그 용도입니다. 컴퓨터의 텍스트는 실제로 문자가 아니며 일련의 쌍으로 된 영숫자 값입니다. 문자 인코딩은 문자가 어떤 문자와 일치 하는지를 철자법이 지시하는 것과 마찬가지로 값이 문자와 일치하는 키 역할을합니다. 모스 부호는 일종의 문자 인코딩입니다. 경고음과 같은 길고 짧은 단위의 그룹이 어떻게 문자를 나타내는 지 설명합니다. 모스 부호에서 문자는 영어 문자, 숫자 및 전체 중지입니다. 문자, 숫자, 악센트 부호, 구두점, 국제 기호 등으로 변환되는 많은 컴퓨터 문자 인코딩이 있습니다..

종종이 주제에서 "코드 페이지"라는 용어가 사용됩니다. 이들은 본질적으로 특정 회사에서 사용하는 문자 인코딩이며, 대개 약간의 수정이 필요합니다. 예를 들어 Windows 1252 코드 페이지 (이전의 ANSI 1252)는 ISO-8859-1의 수정 된 형식입니다. 이들은 주로 동일한 시스템에 고유 한 표준 및 수정 된 문자 인코딩을 참조하는 내부 시스템으로 사용됩니다. 초기에는 컴퓨터가 서로 통신하지 않았기 때문에 문자 인코딩이 중요하지 않았습니다. 인터넷이 눈에 띄게 뜨거워지고 네트워킹이 일상적으로 일어나고 있기 때문에 우리가 그것을 깨닫지도 못하고 일상 생활에서 점차 중요 해지고 있습니다..

많은 다른 유형

(sarah sosiak의 이미지)

많은 다른 문자 인코딩이 있습니다. 거기에는 많은 이유가 있습니다. 사용할 문자 인코딩은 필요에 따라 다릅니다. 러시아어로 의사 소통을한다면 키릴 문자를 잘 지원하는 문자 인코딩을 사용하는 것이 좋습니다. 한국어로 의사 소통을한다면 한글과 한자를 잘 표현할 수 있습니다. 수학자라면 그리스어와 라틴 글리프뿐만 아니라 모든 과학적, 수학적 기호가 잘 표현되어있는 것을 원합니다. 당신이 장난 꾸러기 인 경우에, 어쩌면 당신은 거꾸로 된 원본에서 혜택을받을 것입니다. 그리고 모든 유형의 문서를 특정 사람이 볼 수있게하려면 매우 일반적이며 쉽게 액세스 할 수있는 인코딩이 필요합니다..

좀 더 일반적인 것들을 살펴 보겠습니다..

(ASCII 테이블 발췌, asciitable.com의 이미지)

ASCII - 정보 교환을위한 미국 표준 코드는 오래된 문자 인코딩 중 하나입니다. 원래 전신 코드를 기반으로 고안되었으며 시간이 지남에 따라 더 많은 기호 및 일부 구식 인쇄되지 않은 제어 문자가 포함되도록 발전했습니다. 악센트가없는 문자가없는 라틴 알파벳으로 제한되므로 현대 시스템의 측면에서 볼 때 기본 사항 일 것입니다. 7 비트 인코딩은 128 문자 만 허용하므로 전 세계에서 여러 비공식 변종이 사용됩니다.
ISO-8859 - 국제 표준화기구 (International Organization for Standardization)에서 가장 널리 사용되는 문자 인코딩 그룹은 번호 8859입니다. 각각의 특정 인코딩은 숫자로 지정되며 대개는 설명이 담긴 모니 커가 앞에 붙습니다. ISO-8859-3 (라틴어 -3), ISO-8859-6 (라틴 / 아랍어) 이것은 ASCII의 상위 집합으로, 인코딩의 처음 128 개 값이 ASCII와 동일 함을 의미합니다. 그러나 8 비트이기 때문에 256자를 허용하므로 거기에서 벗어나 더 다양한 문자 배열을 포함하며 각각의 특정 인코딩은 서로 다른 기준 집합에 초점을 맞 춥니 다. 라틴어 -1에는 악센트 부호가있는 문자와 기호가 포함되어 있지만 나중에 유로 기호와 같이 업데이트 된 글리프가 포함 된 Latin-9라는 수정 된 집합으로 대체되었습니다..

(unicode.org의 Tibetan 스크립트, Unicode v4 발췌 록)

유니 코드 - 이 인코딩 표준은 보편성을 목표로합니다. 현재 여러 블록으로 구성된 93 개의 스크립트가 포함되어 있으며 더 많은 스크립트가 포함되어 있습니다. 유니 코드는 다른 문자 세트와 다르게 작동합니다. 즉, 글리프를 직접 코딩하는 대신 각 값은 문자 코드에 해당하는 16 진수 값이지만 글리프 자체는 프로그램에서 분리 된 방식으로 제공됩니다 (예 : 웹 브라우저). 이러한 코드 포인트는 일반적으로 다음과 같이 표시됩니다. U + 0040 ( '@'로 변환 됨). 유니 코드 표준에 따른 특정 인코딩은 UTF-8 및 UTF-16입니다. UTF-8은 ASCII와의 최대 호환성을 허용합니다. 8 비트이지만 대체 메커니즘과 문자 당 여러 쌍의 값을 통해 모든 문자를 사용할 수 있습니다. 표준과보다 완벽한 16 비트 호환성을위한 완벽한 ASCII 호환성을 제공하는 UTF-16 도랑.
ISO-10646 - 이것은 실제 인코딩이 아니며 ISO에서 표준화 된 유니 코드 문자 집합입니다. 그것은 HTML에서 사용되는 문자 레퍼토리이기 때문에 대부분 중요합니다. Unicode에서 제공하는 고급 정렬 기능 중 일부는 왼쪽에서 오른쪽으로 스크립팅과 함께 오른쪽에서 왼쪽으로 누락 된 기능입니다. 그래도 다양한 스크립트 사용을 허용하고 브라우저가 글리프를 해석 할 수 있으므로 인터넷에서 사용하기에 매우 적합합니다. 이로 인해 현지화가 다소 쉬워졌습니다..

어떤 인코딩을 사용해야합니까??

글쎄, ASCII는 대부분의 영어 사용자에게 적합하지만 다른 언어 사용자에게는 적합하지 않습니다. 대부분의 서유럽 언어에서 사용할 수있는 ISO-8859-1이 더 자주 보입니다. ISO-8859의 다른 버전은 키릴 자모, 아랍어, 그리스어 또는 기타 특정 스크립트에서 작동합니다. 그러나 동일한 문서 또는 동일한 웹 페이지에 여러 스크립트를 표시하려는 경우 UTF-8을 사용하면 훨씬 더 우수한 호환성을 얻을 수 있습니다. 또한 적절한 구두점, 수학 기호, 또는 사각형과 체크 박스와 같은 수갑없는 캐릭터를 사용하는 사람들에게도 효과적입니다..

(하나의 문서에 여러 언어, gujaratsamachar.com의 스크린 샷)

그러나 각 세트에는 단점이 있습니다. ASCII는 구두점이 제한되어 있으므로 인쇄상의 올바른 편집을 위해서는 믿을 수 없을만큼 잘 작동하지 않습니다. Word에서 복사 / 붙여 넣기를 입력하면 문자 모양이 이상하게 조합 된 적이 있습니까? 이것은 ISO-8859의 단점입니다. OS의 특정 코드 페이지와의 상호 운용성이 더 정확합니다 (우리는 당신을 보았습니다, Microsoft!). UTF-8의 주요 단점은 편집 및 게시 응용 프로그램에서 적절한 지원이 부족하다는 것입니다. 또 다른 문제점은 브라우저가 종종 UTF-8로 인코딩 된 문자의 바이트 순서 표시 만 해석하고 표시하지 않는다는 것입니다. 이로 인해 원하지 않는 글리프가 표시됩니다. 물론 하나의 인코딩을 선언하고 웹 페이지에서 올바르게 선언 / 참조하지 않고 다른 문자를 사용하면 브라우저에서 올바르게 인코딩하고 검색 엔진에서 적절하게 색인을 생성하기 어렵습니다..

자신의 문서, 원고 등을 위해 필요한 작업을 수행 할 수 있습니다. 웹이가는 한, 대부분의 사람들은 바이트 순서 마크를 사용하지 않는 UTF-8 버전을 사용하는 것에 동의하지만 완전히 만장일치가 아닙니다. 보시다시피 각 문자 인코딩에는 고유 한 용도, 컨텍스트 및 장단점이 있습니다. 최종 사용자 인 경우이 문제를 처리 할 필요는 없겠지만 지금 선택하면 추가 조치를 취할 수 있습니다..