본문 바로가기
🎪 놀고있네/i18n

[Unicode] Unicode 문자열이란? 🙄👮🏿‍♀️🍔

by 냥장판 2019. 12. 2.

목표: Unicode에서 정의하는 문자열을 알아보자 

 

유니코드(Unicode)는 SW 국제화 요구사항 중 단연 필수적이라 할 수 있다.

 

2019/11/28 - [놀고있네/i18n] - i18n 이 뭔가요? SW 국제화가 뭔가요?

 

i18n 이 뭔가요? SW 국제화가 뭔가요?

목표: Internationalization (i18n) 파악하기 요약 i18n 은 Internationalization 의 축약형임 SW국제화란 국제적으로 통용되는 SW를 설계하고 개발하는 과정 SW현지화란 현지(Locale) IT 환경에 적합하도록 SW 를..

miaow-miaow.tistory.com

 

 

유니코드는 현존하는 전 세계의 모든 문자시스템에서 표현하고 다룰 수 있도록 고안된 표준이다.

유니코드는 유니코드 컨소시엄(Unicode Consortirum)에서 표준을 제정하고, 문자 집합, 문자열 인코딩, 문자열 처리 방식, 문자 정보 데이터베이스 등을 제공한다.

 

유니코드의 목표는 쉽게 생각하면, 글자 깨짐 문제를 해결하는 것이다. 

기존 문자 인코딩 체계는 언어, 국가별로 규모가 제한적이고, 다국어 환경, 이기종 환경에 호환되지 않는 문제점을 가지고 있다.

유니코드의 개발 목적은 다국어 환경과 호환되지 않는 기존 문자 인코딩 체계를 대체하기 위함으로 지속적으로 표준이 유지되고 있다. (최신버전: Unicode 12.1.0, Emoji 12.0 / 2019년 12월 현재)

따라서, 유니코드는 단일 인코딩으로 다국어 환경에서 호환 가능하므로 문자열 깨짐을 해결할 수 있다.

 

 

 

유니코드 문자열(Unicode Characters)

 

유니코드에는 136,000 이상의 문자열이 있다.

어떤 문자열이 유니코드에 포함되어 있는지 살펴보면 아래와 같다.

 

  • 130개 이상의 스크립트(알파벳):

  • Latin, Cyrillic, Hindi, Thai, Korean, Chinese 등 88,000개 이상의 문자열을 보유하고 있다.


    한글: 

    북유럽식 Runic 문자열: 
    이집트 상형문자/신성문자(히에로글리프): 
  • 750개 이상의 구두점 문자열(punctuation characters)

    일반 구두점 문자열: 

    설형 문자의 구두점:

  • 1,500개 이상의 숫자(numbers)

    일반 디지털 숫자:

    말라얄람어(인도 서남부 케랄라(Kerala)):

    Enclosed numerics:

 

     style="display:inline-block;width:740px;height:200px"
     data-ad-client="ca-pub-9512983930357661"
     data-ad-slot="5785466884">


  • 1,750개 이상의 결합 문자(combining marks)
    combining marks는 베트남어, 프랑스어, 독일어 등에서 쉽게 찾을 수 있다.

a 라는 라틴 문자열과 결합할 수 있는 부수적인 문자열을 combining marks 라고 한다.

(결합 문자보다는 combining marks라고 하는 것이 더 직관적이다.)

 

위의 그림을 보면 이해가 더 쉬울 것이다.

  • 6,800개 이상의 심볼(symbols)

    game symbols like:

    점자(Braille):

    기타 심볼:

  • 2,600개 이상의 이모지(Emoji)

 

 

 

위에서 보는 것과 같이,

한글에는 가나다

라틴어에는 abc 123 등.

언어라고 할 수 있는 알파벳만이 문자열을 나타내지 않는다.

 

우리가 사용하는 수학 기호, 음악 기호에서 부터 이모티콘이라 칭하는 Emoji까지 범위는 대단히 넓다. 🤪

 

다음 게시글은 유니코드에 대해서 더 세부적으로 파악하도록 하겠다.


 

 

 

 

 

 

댓글