Pergi ke kandungan

Unicode

Daripada Wikipedia, ensiklopedia bebas.

Unicode ialah piawaian industri yang membolehkan komputer untuk melambangkan dan memanipulasi teks yang diekspresikan dalam mana-mana sistem tulisan di dunia secara konsisten. Unicode yang dibangunkan seiringan dengan piawaian Set Aksara Universal dan diterbit dalam bentuk buku sebagai The Unicode Standard, Unicode terdiri daripada himpunan kira-kira 100,000[1] aksara, satu set carta kod bagi rujukan visual, kaedah pengekodan dan set pengekodan aksara piawai, penyebutan ciri-ciri aksara seperti huruf besar atau kecil, satu set fail komputer data rujukan, dan peraturan untuk penyeragaman, penguraian, pengumpulsemakan dan pengemukaan aksara.

Konsortium Unicode, sebuah pertubuhan bukan untung yang menyelaras pembangunan Unicode, memegang cita-cita untuk menggantikan skema pengekodan aksara sedia ada dengan Unicode dan skema-skema Unicode Transformation Format (UTF) piawainya, kerana kebanyakan skema pengekodan sedia ada terhad saiz dan skopnya serta tidak serasi dengan persekitaran pelbagai bahasa. Kejayaan Unicode dalam menyatukan set-set aksara telah mencetuskan penggunakan meluas dan dominan dalam pengantarabangsaan dan penyetempatan perisian komputer. Piawaian ini telah dilaksanakan dalam banyak hasil teknologi terkini, termasuk XML, Java dan sistem pengendalian moden.

Asal-usul dan pembangunan

[sunting | sunting sumber]

Unicode jelasnya bertujuan mencecah had-had pengekodan aksara tradisional, seperti yang didefinasikan dalam piawaian ISO 8859 yang didapati luas penggunaannya di pelbagai negaa di dunia tetapi masih amat tidak serasi dengan satu sama lain. Kebanyakan pengekodan aksara tradisional berkongsi satu masalah utama yang mana pemprosesan komputer dwibahasa dibenarkan (lazimnya menggunakan huruf rumi dan bahasa tempatan) tetapi tidak pula pemprosesan komputer berbilang bahasa (pemprosesan komputer sembarangan bahasa yang dicampur aduk dengan satu sama lain).

Unicode diniatkan untuk mengekod aksara asasnya — grafem dan unit seakan-akan grafem — dan bukannya pelbagai glif (pengemukaan) bagi aksara sedemikian. Mengenai aksara Cina, kadang-kadang ini menyebabkan kontroversi mengenai membezakan aksara asas dari pelbagai glifnya (lihat penyatuan Han).

Dalam pemprosesan teks, Unicode memainkan peranan membekalkan titik kod (code point) yang unik — nombor, bukan glif — bagi setiap satu aksara. dalam erti kata lain, Unicode melambangkan sesuatu aksara secara abstrak lalu menyerahkan pengemukaan visual (saiz, bentuk, fon atau gaya) kepada perisian lain, seperti pelayar web atau pemproses kata. Namun begitu, sasaran mudah ini bertambah rumit akibat konsesi yang dilakukan oleh pereka-pereka Unicode dengan harapan mempercepatkan pengambilan Unicode.

256 titik kod yang pertama dijadikan seiras kepada kandungan ISO 8859-1 agar menjadikannya tidak penting untuk menukarkan teks Barat yang sedia ada. Banyak aksara yang seiras secara pokoknya telah dikodkan banyak kali di titik kod berbeza untuk mengekalkan pembezaan yang dipakai oleh pengekodan terdahulu, maka membenarkan penukaran dari pengekodan tersebut ke Unicode secara ulang alik tanpa keciciran apa-apa maklumat. Contohnya, seksyen titik kod "bentuk lebar penuh" merangkumi abjad rumi penuh yang berasingan daripada seksyen abjad rumi utama. Dalam fon bahasa Cina, Jepun dan Korea (CJK), aksara-aksara ini dikemukakan pada lebar yang sama seperti ideograf CJK dan bukannya separuh lebar. Bagi contoh lain, lihat Aksara pendua di Unicode.

Selain itu, sementara membolehkan penggabungan aksara Unicode juga mengandungi versi pragubah bagi kebanyakan kombinasi huruf/diakritik dalam kegunaan seharian. ini memudahkan lagi penukaran ulang alik dari pengekodan terdahulu serta membolehkan aplikasi untuk menggunakan Unicode sebagai format teks dalaman tanpa perlu melaksanakan aksara gabungan. Contohnya é boleh diwakili di Unicode sebagai U+0065 (Latin small letter e) diikuti U+0301 (combining acute) tetapi boleh juga diwakili dengan aksara pragubah U+00E9 (Latin small letter e with acute).

Piawaian Unicode juga merangkumi sebilangan butiran berkaitan, seperti ciri-ciri aksara, penyeragaman bentuk teks dan susunan paparan dwiarah (bagi pemaparan sempurna bagi teks yang mengandungi kedua-dua skrip kanan-ke-kiri, seperti bahasa Arab atau Ibrani, serta skrip kiri-ke-kanan).

Skrip-skrip yang diliputi

[sunting | sunting sumber]

Unicode meliputi hampir kesemua (sistem tulisan) yang dipakai pada zaman sekarang, termasuk:

Unicode telah menambah skrip-skrip selanjutnya dan akan meliputi banyak lagi, termasuk skrip-skrip bersejarah yang kurang diamalkan pada masa sekarang1 serta juga bahasa pupus bagi kegunaan akademik:

Pautan luar

[sunting | sunting sumber]