Do pomiaru stosuje się podejście alfabetyczne ilość informacji w tekście przedstawionym jako ciąg znaków jakiegoś alfabetu. Podejście to nie jest związane z treścią tekstu. Ilość informacji w tym przypadku nazywa się objętość informacyjna tekstu, która jest proporcjonalna do rozmiaru tekstu – liczby znaków tworzących tekst. Takie podejście do pomiaru informacji nazywa się czasem podejściem wolumetrycznym.

Każdy znak tekstu niesie ze sobą pewną ilość informacji. Wzywają go waga informacyjna symbolu. Dlatego objętość informacyjna tekstu jest równa sumie wag informacyjnych wszystkich znaków tworzących tekst.

Zakłada się tutaj, że tekst jest sekwencyjnym łańcuchem ponumerowanych znaków. We wzorze (1) I 1 oznacza wagę informacyjną pierwszego znaku tekstu, I 2 - waga informacyjna drugiego znaku tekstu itp.; K- rozmiar tekstu, tj. całkowita liczba znaków w tekście.

Wszystkie te różne symbole używane do pisania tekstów, zwany alfabet. Rozmiar alfabetu to liczba całkowita tzw moc alfabetu. Należy pamiętać, że alfabet obejmuje nie tylko litery danego języka, ale wszystkie inne symbole, które można zastosować w tekście: cyfry, znaki interpunkcyjne, różne nawiasy, spacje itp.

Wyznaczanie wag informacyjnych symboli może odbywać się w dwóch przybliżeniach:

1) przy założeniu jednakowego prawdopodobieństwa (równej częstotliwości występowania) dowolnego znaku w tekście;

2) uwzględnienie różnych prawdopodobieństw (różnej częstotliwości występowania) różnych znaków w tekście.

Przybliżenie równego prawdopodobieństwa znaków w tekście

Jeśli założymy, że wszystkie znaki alfabetu w dowolnym tekście występują z ta sama częstotliwość, wówczas waga informacyjna wszystkich symboli będzie taka sama. Pozwalać N- moc alfabetu. Wtedy ułamek dowolnego znaku w tekście wynosi 1/ N część tekstu. Z definicji prawdopodobieństwa (por ) wartość ta jest równa prawdopodobieństwu pojawienia się znaku na każdej pozycji tekstu:

P = 1/N

Według wzoru K. Shannona (por. „Pomiar informacji. Podejście merytoryczne”), ilość informacji niesionej przez symbol oblicza się w następujący sposób:

i = log2(1/ P) = log2 N(fragment) (2)

Dlatego waga informacyjna symbolu ( I) i moc alfabetu ( N) są ze sobą powiązane zgodnie ze wzorem Hartleya (patrz „ Informacje pomiarowe. Podejście merytoryczne” )

2 I = N.

Znając wagę informacyjną jednego znaku ( I) i rozmiar tekstu wyrażony liczbą znaków ( K), możesz obliczyć objętość informacyjną tekstu za pomocą wzoru:

ja = K · I (3)

Wzór ten jest specjalną wersją wzoru (1) w przypadku, gdy wszystkie symbole mają tę samą wagę informacyjną.

Ze wzoru (2) wynika, że kiedy N= 2 (alfabet binarny) waga informacyjna jednego znaku wynosi 1 bit.

Z punktu widzenia alfabetycznego podejścia do pomiaru informacji1 bit -jest to waga informacyjna znaku z alfabetu binarnego.

Większą jednostką miary informacji jest bajt.

1 bajt -jest to waga informacyjna symbolu z alfabetu o potędze 256.

Ponieważ 256 = 2 · 8, związek między bitem a bajtem wynika ze wzoru Hartleya:

2 I = 256 = 2 8

Stąd: I= 8 bitów = 1 bajt

Do reprezentacji tekstów przechowywanych i przetwarzanych na komputerze najczęściej stosuje się alfabet o pojemności 256 znaków. Stąd,
1 znak takiego tekstu „waży” 1 bajt.

Oprócz bitu i bajtu do pomiaru informacji używane są również większe jednostki:

1 KB (kilobajt) = 2 10 bajtów = 1024 bajty,

1 MB (megabajt) = 2 10 KB = 1024 KB,

1 GB (gigabajt) = 2 10 MB = 1024 MB.

Aproksymacja różnych prawdopodobieństw wystąpienia znaków w tekście

Przybliżenie to uwzględnia, że w prawdziwym tekście różne znaki występują z różną częstotliwością. Wynika z tego, że prawdopodobieństwa pojawienia się różnych znaków w określonej pozycji tekstu są różne, a co za tym idzie, ich wagi informacyjne są różne.

Z analizy statystycznej tekstów rosyjskich wynika, że częstotliwość występowania litery „o” wynosi 0,09. Oznacza to, że na każde 100 znaków litera „o” pojawia się średnio 9 razy. Ta sama liczba wskazuje prawdopodobieństwo pojawienia się litery „o” w określonym miejscu w tekście: P o = 0,09. Wynika z tego, że waga informacyjna litery „o” w tekście rosyjskim jest równa:

Najrzadszą literą w tekstach jest litera „f”. Jego częstotliwość wynosi 0,002. Stąd:

Prowadzi to do wniosku jakościowego: waga informacyjna liter rzadkich jest większa niż waga liter często występujących.

Jak obliczyć objętość informacyjną tekstu, biorąc pod uwagę różne wagi informacyjne znaków alfabetu? Odbywa się to według następującego wzoru:

Tutaj N- wielkość (potęga) alfabetu; n j- liczba powtórzeń numeru symbolu J w tekście; ja j- waga informacyjna numeru symbolu J.

Podejście alfabetyczne na kursie informatyki jest podstawą szkoły

Na kursie informatyki w szkole podstawowej zapoznawanie uczniów z alfabetycznym podejściem do pomiaru informacji odbywa się najczęściej w kontekście komputerowej reprezentacji informacji. Główne stwierdzenie brzmi następująco:

Ilość informacji mierzy się rozmiarem kod binarny, za pośrednictwem którego prezentowane są te informacje

Ponieważ każdy rodzaj informacji jest reprezentowany w pamięci komputera w postaci kodu binarnego, definicja ta jest uniwersalna. Dotyczy to informacji symbolicznych, numerycznych, graficznych i dźwiękowych.

Jeden znak ( wypisać)kod binarny przenosi 1trochę informacji.

Wyjaśniając metodę pomiaru objętości informacyjnej tekstu na podstawowym kursie informatyki, kwestię tę rozwiązuje się poprzez następującą sekwencję pojęć: alfabet-rozmiar kodu binarnego znaków-objętość informacyjna tekstu.

Logika rozumowania rozwija się na podstawie konkretnych przykładów, aby uzyskać ogólną regułę. Niech alfabet określonego języka ma tylko 4 znaki. Oznaczmy je: , , , . Symbole te można zakodować za pomocą czterech dwucyfrowych kodów binarnych: - 00, - 01, - 10, - 11. Stosowane są tu wszystkie warianty umieszczenia dwóch symboli, których liczba wynosi 2 2 = 4. Stąd wniosek jest taki narysowany: waga informacyjna symbolu pochodzi z A 4-znakowy alfabet jest równy dwóm bitom.

Następnym szczególnym przypadkiem jest alfabet 8-znakowy, którego każdy znak można zakodować w 3-bitowym kodzie binarnym, ponieważ liczba umieszczenia dwóch znaków w grupach po 3 wynosi 2 3 = 8. Zatem waga informacyjna znak z 8-znakowego alfabetu to 3 bity. Itp.

Uogólniając poszczególne przykłady, otrzymujemy ogólna zasada: za pomocą B- bitowy kod binarny może zakodować alfabet składający się z N = 2 B- symbole.

Przykład 1. Do pisania tekstu do oddzielania słów używane są wyłącznie małe litery alfabetu rosyjskiego i „spacja”. Jaka jest objętość informacyjna tekstu składającego się z 2000 znaków (jedna drukowana strona)?

Rozwiązanie. Alfabet rosyjski składa się z 33 liter. Skracając go o dwie litery (np. „е” i „й”) i wprowadzając znak spacji, otrzymujemy bardzo dogodną liczbę znaków - 32. Korzystając z przybliżenia równego prawdopodobieństwa znaków, piszemy wzór Hartleya:

2I= 32 = 2 5

Stąd: I= 5 bitów - waga informacyjna każdego znaku alfabetu rosyjskiego. Wtedy objętość informacyjna całego tekstu jest równa:

I= 2000 5 = 10 000 fragment

Przykład 2. Oblicz objętość informacyjną tekstu o długości 2000 znaków, którego zapis wykorzystuje alfabet komputerowej reprezentacji tekstów o pojemności 256.

Rozwiązanie. W tym alfabecie waga informacyjna każdego znaku wynosi 1 bajt (8 bitów). Dlatego objętość informacyjna tekstu wynosi 2000 bajtów.

W praktycznych zadaniach z tego tematu ważne jest ćwiczenie umiejętności uczniów w zakresie przeliczania ilości informacji na różne jednostki: bity - bajty - kilobajty - megabajty - gigabajty. Jeśli przeliczymy objętość informacyjną tekstu z przykładu 2 na kilobajty, otrzymamy:

2000 bajtów = 2000/1024 1,9531 KB

Przykład 3. Rozmiar wiadomości, zawierającej 2048 znaków, wynosił 1/512 megabajta. Jaka jest wielkość alfabetu, jakim napisana jest wiadomość?

Rozwiązanie. Przeliczmy objętość informacji wiadomości z megabajtów na bity. Aby to zrobić, pomnóż tę wartość dwukrotnie przez 1024 (otrzymamy bajty) i raz przez 8:

I= 1/512 · 1024 · 1024 · 8 = 16 384 bitów.

Ponieważ taka ilość informacji jest przenoszona przez 1024 znaki ( DO), to na znak przypada:

I = I/K= 16 384/1024 = 16 bitów.

Wynika z tego, że wielkość (potęga) użytego alfabetu wynosi 2 16 = 65 536 znaków.

Podejście objętościowe na lekcjach informatyki w szkole średniej

Studiując informatykę w klasach 10–11 na podstawowym poziomie ogólnokształcącym, możliwe jest pozostawienie wiedzy uczniów na temat wolumetrycznego podejścia do pomiaru informacji na tym samym poziomie, co opisano powyżej, tj. w kontekście objętości binarnego kodu komputerowego.

Studiując informatykę na poziomie profilu, podejście wolumetryczne należy rozpatrywać z bardziej ogólnej perspektywy matematycznej, wykorzystując pojęcia dotyczące częstotliwości występowania znaków w tekście, prawdopodobieństw i powiązania prawdopodobieństw z wagami informacyjnymi znaków.

Znajomość tych zagadnień okazuje się istotna dla głębszego zrozumienia różnic w stosowaniu wyrazów jednolitych i nierównych kodowanie binarne(cm. „Kodowanie informacji”), aby zrozumieć niektóre techniki kompresji danych (patrz „Kompresja danych”) i algorytmy kryptograficzne (patrz. „Kryptografia” ).

Przykład 4. Alfabet plemienia MUMU składa się tylko z 4 liter (A, U, M, K), jednego znaku interpunkcyjnego (kropki) i spacji oddzielającej wyrazy. Obliczono, że popularna powieść „Mumuka” zawiera zaledwie 10 000 znaków, z czego: litery A – 4000, litery U – 1000, litery M – 2000, litery K – 1500, kropki – 500, spacje – 1000. Ile informacji zawiera zawiera książkę?

Rozwiązanie. Ponieważ objętość księgi jest dość duża, można założyć, że częstotliwość występowania każdego symbolu alfabetu w wyliczonym z niej tekście jest typowa dla dowolnego tekstu w języku MUMU. Obliczmy częstotliwość występowania każdego symbolu w całym tekście książki (tj. prawdopodobieństwo) oraz wagi informacyjne symboli

Całkowitą ilość informacji w książce obliczamy jako sumę iloczynów wagi informacyjnej każdego symbolu i liczby powtórzeń tego symbolu w książce:

Do pomiaru długości służą takie jednostki jak milimetr, centymetr, metr, kilometr. Wiadomo, że masę mierzy się w gramach, kilogramach, centnerach i tonach. Upływ czasu wyraża się w sekundach, minutach, godzinach, dniach, miesiącach, latach, stuleciach. Komputer pracuje z informacją i istnieją również odpowiednie jednostki miary służące do pomiaru jego objętości.

Wiemy już, że komputer przetwarza wszystkie informacje.

Fragment to minimalna jednostka miary informacji odpowiadająca jednej cyfrze binarnej („0” lub „1”).

Bajt składa się z ośmiu bitów. Używając jednego bajtu, możesz zakodować jeden znak z 256 możliwych (256 = 2 8). Zatem jeden bajt jest równy jednemu znakowi, czyli 8 bitom:

1 znak = 8 bitów = 1 bajt.

Litera, cyfra, znak interpunkcyjny są symbolami. Jedna litera - jeden symbol. Jedna liczba jest także jednym symbolem. Jeden znak interpunkcyjny (kropka, przecinek, znak zapytania itp.) to znowu jeden znak. Jedna spacja to także jeden znak.

Uczenie się znajomość obsługi komputera wymaga uwzględnienia innych, większych jednostek miary informacji.

Tabela bajtów:

1 bajt = 8 bitów

1KB (1 Kilobajt) = 2 10 bajtów = 2*2*2*2*2*2*2*2*2*2 bajtów =
= 1024 bajty (około 1 tysiąc bajtów – 10 3 bajty)

1 MB (1 Megabajt) = 2 20 bajtów = 1024 kilobajtów (około 1 milion bajtów - 10 6 bajtów)

1 GB (1 Gigabajt) = 2 30 bajtów = 1024 megabajtów (około 1 miliard bajtów - 10 9 bajtów)

1 TB (1 Terabajt) = 2 40 bajtów = 1024 gigabajtów (około 10 12 bajtów). Czasami nazywany jest terabajtem tona.

1 Pb (1 Petabajt) = 2 50 bajtów = 1024 terabajtów (około 10 15 bajtów).

1 Exabajt= 2 60 bajtów = 1024 petabajtów (około 10 18 bajtów).

1 Zettabajt= 2 70 bajtów = 1024 eksabajtów (około 10 21 bajtów).

1 Yottabajt= 2 80 bajtów = 1024 zettabajtów (około 10 24 bajtów).

W powyższej tabeli potęgi dwójki (2 10, 2 20, 2 30 itd.) to dokładne wartości kilobajtów, megabajtów, gigabajtów. Ale potęgi liczby 10 (dokładniej 10 3, 10 6, 10 9 itd.) będą już wartościami przybliżonymi, zaokrąglonymi w dół. Zatem 2 10 = 1024 bajty reprezentuje dokładną wartość kilobajta, a 10 3 = 1000 bajtów to przybliżona wartość kilobajta.

Takie przybliżenie (lub zaokrąglenie) jest całkiem akceptowalne i ogólnie akceptowane.

Poniżej znajduje się tabela bajtów ze skrótami angielskimi (w lewej kolumnie):

1 Kb ~ 10 3 b = 10*10*10 b= 1000 b – kilobajt

1 Mb ~ 10 6 b = 10*10*10*10*10*10 b = 1 000 000 b – megabajt

1 Gb ~ 10 9 b – gigabajt

1 Tb ~ 10 12 b – terabajt

1 Pb ~ 10 15 b – petabajt

1 Eb ~ 10 18 b – eksabajt

1 Zb ~ 10 21 b – zettabajt

1 Yb ~ 10 24 b – jotabajt

Powyżej w prawej kolumnie znajdują się tak zwane „przedrostki dziesiętne”, które są używane nie tylko w bajtach, ale także w innych obszarach ludzkiej działalności. Przykładowo przedrostek „kilo” w słowie „kilobajt” oznacza tysiąc bajtów, tak jak w przypadku kilometra odpowiada to tysiącowi metrów, a w przykładzie kilograma równa się tysiącowi gramów.

Ciąg dalszy…

Powstaje pytanie: czy istnieje kontynuacja tablicy bajtów? W matematyce istnieje pojęcie nieskończoności, które jest symbolizowane jako odwrócona ósemka: ∞.

Oczywiste jest, że w tabeli bajtów można nadal dodawać zera, a raczej potęgi do liczby 10 w ten sposób: 10 27, 10 30, 10 33 i tak dalej w nieskończoność. Ale dlaczego jest to konieczne? W zasadzie na razie wystarczą terabajty i petabajty. W przyszłości być może nawet jotabajt nie będzie wystarczający.

Na koniec kilka przykładów urządzeń, które mogą przechowywać terabajty i gigabajty informacji.

Jest wygodny „terabajt” - zewnętrzny dysk twardy, który łączy się przez Port USB do komputera. Można na nim przechowywać terabajt informacji. Szczególnie wygodny w przypadku laptopów (w przypadku zmiany dysk twardy może być problematyczne) i dla kopia zapasowa informacja. Lepiej zrobić to wcześniej kopie zapasowe informacji, a nie wtedy, gdy wszystko zniknie.

Dyski flash są dostępne w pojemnościach 1 GB, 2 GB, 4 GB, 8 GB, 16 GB, 32 GB, 64 GB, a nawet 1 terabajt.

Objętość informacyjna tekstu i jednostki miary informacji

Nowoczesny komputer może przetwarzać informacje liczbowe, tekstowe, graficzne, dźwiękowe i wideo. Wszystkie tego typu informacje w komputerze są prezentowane w kodzie binarnym, tj. Używane są tylko dwa znaki 0 i 1. Wynika to z faktu, że wygodnie jest przedstawić informację w postaci ciągu impulsów elektrycznych: jest brak impulsu (0), jest impuls (1).

Takie kodowanie nazywa się zwykle binarnym, a same logiczne ciągi zer i jedynek nazywane są językiem maszynowym.

Jak długi musi być kod binarny, aby można go było wykorzystać do zakodowania znaków na klawiaturze komputera?

Zatem, waga informacyjna jednego znaku wystarczającego alfabetu wynosi 1 bajt.

Aby zmierzyć duże ilości informacji, stosuje się większe jednostki informacji:

Jednostki miary ilości informacji:

1 bajt = 8 bitów

1 kilobajt = 1 KB = 1024 bajty

1 megabajt = 1 MB = 1024 KB

1 gigabajt = 1 GB = 1024 GB

Objętość informacyjna tekstu

1. Liczba znaków w książce:

60 * 40 * 150 = 360 000 znaków.

2. Ponieważ 1 znak waży 1 bajt, objętość informacyjna książki jest równa

360 000 bajtów.

3. Zamieńmy bajty na większe jednostki:

360 000 / 1024 = 351,56 KB

351,56 / 1024 = 0,34 MB

Odpowiedź: Objętość informacyjna tekstu wynosi 0,34 MB.

Zadanie:

Objętość informacyjna tekstu przygotowanego komputerowo wynosi 3,5 KB. Ile znaków zawiera ten tekst?

1. Przeliczmy wolumin z MB na bajty:

3,5 MB * 1024 = 3584 KB

3584 KB * 1024 = 3 670 016 bajtów

2. Ponieważ 1 znak waży 1 bajt, tyle jest znaków w tekście

Ilość informacji

Ilość informacji jako miara zmniejszania niepewności wiedzy.
(Podejście merytoryczne do ustalenia ilości informacji)

Proces poznania otaczającego świata prowadzi do gromadzenia informacji w postaci wiedzy (fakty, teorie naukowe itp.). Zdobywanie nowych informacji prowadzi do poszerzenia wiedzy lub, jak się czasem mówi, do zmniejszenia niepewności wiedzy. Jeśli jakiś komunikat prowadzi do zmniejszenia niepewności naszej wiedzy, to można powiedzieć, że taki komunikat zawiera informację.

Na przykład po zdaniu testu lub jego zaliczeniu dręczy Cię niepewność, nie wiesz, jaką ocenę otrzymałeś. Na koniec nauczyciel ogłasza wyniki, a ty otrzymujesz jeden z dwóch wiadomości informacyjne: „zaliczony” lub „niezaliczony”, a po teście jeden z czterech komunikatów informacyjnych: „2”, „3”, „4” lub „5”.

Wiadomość informacyjna o ocenie z kolokwium powoduje zmniejszenie niepewności wiedzy o połowę, gdyż otrzymany zostanie jeden z dwóch możliwych komunikatów informacyjnych. Wiadomość informacyjna o ocenie za praca testowa powoduje czterokrotne zmniejszenie niepewności Twojej wiedzy, ponieważ odebrany zostanie jeden z czterech możliwych komunikatów informacyjnych.

Oczywiste jest, że im bardziej niepewna jest sytuacja wyjściowa (im więcej jest możliwych komunikatów informacyjnych), tym więcej nowych informacji otrzymamy po otrzymaniu komunikatu informacyjnego (tym częściej zmniejszy się niepewność wiedzy).

Ilość informacji można uznać za miarę zmniejszania niepewności wiedzy przy odbiorze komunikatów informacyjnych.

Omówione powyżej podejście do informacji jako miary zmniejszania niepewności wiedzy pozwala na ilościowy pomiar informacji. Istnieje wzór, który wiąże liczbę możliwych komunikatów informacyjnych N z ilością informacji, jakie niosę w odebranym komunikacie:

N = 2i

(1.1)

Fragment. Aby określić ilościowo dowolną wielkość, należy najpierw określić jednostkę miary. Tak więc, aby zmierzyć długość, jako jednostkę wybiera się metr, aby zmierzyć masę - kilogram itp. Podobnie, aby określić ilość informacji, należy wprowadzić jednostkę miary.

Dla jednostka ilości informacji ilość informacji zawarta w przekazie informacyjnym zostaje zaakceptowana, zmniejszając o połowę niepewność wiedzy. Ta jednostka nazywa się fragment.

Jeśli wrócimy do otrzymania komunikatu informacyjnego o omówionych powyżej wynikach badań, to tutaj niepewność zmniejsza się o połowę, a zatem ilość informacji, którą niesie komunikat wynosi 1 bit.

Jednostki pochodne służące do pomiaru ilości informacji. Najmniejszą jednostką miary ilości informacji jest bit, kolejną największą jednostką jest bajt oraz:

1 bajt = 8 bitów = 2 3 bity.

W informatyce system tworzenia wielu jednostek miar różni się nieco od przyjętego w większości nauk. Tradycyjne metryczne układy jednostek, np. System międzynarodowy Jednostki SI, współczynnik 10 n stosuje się jako mnożniki wielu jednostek, gdzie n = 3, 6, 9 itd., co odpowiada przedrostkom dziesiętnym „Kilo” (10 3), „Mega” (10 6), „ Giga” (10 9) itp.

W komputerze informacja jest kodowana binarnie system znaków i dlatego w wielu jednostkach miary ilości informacji stosuje się współczynnik 2 n

Zatem jednostki miary ilości informacji będące wielokrotnością bajtu wprowadza się w następujący sposób:

1 kilobajt (KB) = 2 10 bajtów = 1024 bajty;

1 megabajt (MB) = 2 10 KB = 1024 KB;

1 gigabajt (GB) = 2 10 MB = 1024 MB.

Pytania bezpieczeństwa

Określanie ilości informacji

Określanie liczby komunikatów informacyjnych. Korzystając ze wzoru (1.1) można łatwo określić liczbę możliwych komunikatów informacyjnych, jeśli znana jest ilość informacji. Przykładowo, na egzaminie bierzesz kartę egzaminacyjną, a nauczyciel informuje Cię, że wizualny komunikat informacyjny o jej numerze zawiera 5 bitów informacji. Jeżeli chcemy określić liczbę biletów na egzaminy, wystarczy określić liczbę możliwych komunikatów informacyjnych o ich liczbie, korzystając ze wzoru (1.1):

Zatem liczba biletów na egzamin wynosi 32.

Określanie ilości informacji. I odwrotnie, jeśli znana jest możliwa liczba komunikatów informacyjnych N, to aby określić ilość informacji niesionych przez komunikat, należy rozwiązać równanie dla I.

Wyobraź sobie, że sterujesz ruchem robota i możesz ustawić kierunek jego ruchu za pomocą komunikatów informacyjnych: „północ”, „północny wschód”, „wschód”, „południowy wschód”, „południe”, „południowy zachód”, „zachód” i „ północny zachód” (ryc. 1.11). Ile informacji otrzyma robot po każdej wiadomości?

Możliwych jest 8 komunikatów informacyjnych, zatem wzór (1.1) przyjmuje postać równania dla I:

Rozłóżmy liczbę 8 po lewej stronie równania i przedstawmy ją w postaci potęgowej:

8 = 2 × 2 × 2 = 2 3 .

Nasze równanie:

Równość lewej i prawej strony równania jest prawdziwa, jeśli wykładniki liczby 2 są równe. Zatem I = 3 bity, czyli ilość informacji, jaką każdy komunikat informacyjny niesie do robota, wynosi 3 bity.

Alfabetyczne podejście do określania ilości informacji

Przy alfabetycznym podejściu do określania ilości informacji abstrahuje się od treści informacji i traktuje przekaz informacyjny jako ciąg znaków określonego systemu znaków.

Pojemność informacyjna znaku. Wyobraźmy sobie, że konieczne jest przesłanie komunikatu informacyjnego kanałem przekazu informacji od nadawcy do odbiorcy. Niech wiadomość będzie zakodowana przy użyciu systemu znaków, którego alfabet składa się z N znaków (1, ..., N). W najprostszym przypadku, gdy długość kodu wiadomości wynosi jeden znak, nadawca może wysłać jedną z N możliwych wiadomości „1”, „2”, ..., „N”, która będzie zawierać ilość informacji I ( Ryc. 1.5).

Ryż. 1,5. Przekazywanie informacji

Wzór (1.1) wiąże liczbę możliwych komunikatów informacyjnych N i ilość informacji, jakie niesie ze sobą odebrana wiadomość. Wówczas w rozpatrywanej sytuacji N jest liczbą znaków w alfabecie systemu znaków, a I jest ilością informacji, jaką niesie każdy znak:

Za pomocą tego wzoru można na przykład określić ilość informacji niesionych przez znak w systemie znaków binarnych:

N = 2 => 2 = 2 I => 2 1 = 2 I => I=1 bit.

Zatem w systemie ze znakiem binarnym znak niesie 1 bit informacji. Co ciekawe, sama jednostka miary ilości informacji „bit” (bit) wzięła swoją nazwę OD angielskiego wyrażenia „Binary digiT” - „cyfra binarna”.

Pojemność informacyjna znaku binarnego systemu znaków wynosi 1 bit.

Im większa liczba znaków zawiera alfabet systemu znaków, tym większa jest ilość informacji niesiona przez jeden znak. Jako przykład określimy ilość informacji niesionych przez literę rosyjskiego alfabetu. Alfabet rosyjski zawiera 33 litery, ale w praktyce do przekazywania wiadomości często używa się tylko 32 liter (wykluczona jest litera „ё”).

Korzystając ze wzoru (1.1) określamy ilość informacji niesionych przez literę alfabetu rosyjskiego:

N = 32 => 32 = 2 I => 2 5 = 2 I => I=5 bitów.

Zatem litera alfabetu rosyjskiego niesie 5 bitów informacji (z alfabetycznym podejściem do pomiaru ilości informacji).

Ilość informacji, jaką niesie znak, zależy od prawdopodobieństwa jego otrzymania. Jeżeli odbiorca z góry dokładnie wie, jaki znak nadejdzie, to ilość otrzymanej informacji będzie równa 0. Wręcz odwrotnie, im mniejsze prawdopodobieństwo, że otrzyma znak, tym większa będzie jego pojemność informacyjna.

W rosyjskiej mowie pisanej częstotliwość użycia liter w tekście jest inna, więc średnio na 1000 znaków tekstu znaczącego przypada 200 liter „a” i sto razy mniej liter „f” (tylko 2) . Zatem z punktu widzenia teorii informacji pojemność informacyjna znaków alfabetu rosyjskiego jest inna (litera „a” jest najmniejsza, a litera „f” jest największa).

Ilość informacji w wiadomości. Wiadomość składa się z ciągu znaków, z których każdy niesie określoną ilość informacji.

Jeżeli znaki niosą ze sobą tę samą ilość informacji, wówczas ilość informacji I c w przekazie można obliczyć mnożąc ilość niesionej informacji I z przez jeden znak przez długość kodu (liczbę znaków w komunikacie) K:

Ja do = Ja × K

Zatem każda cyfra binarnego kodu komputerowego zawiera informację o długości 1 bitu. Zatem dwie cyfry niosą informację w 2 bitach, trzy cyfry w 3 bitach itd. Ilość informacji w bitach jest równa liczbie cyfr binarnego kodu komputerowego (tabela 1.1).

Tabela 1.1. Ilość informacji przenoszona przez binarny kod komputerowy

Wiele innych koncepcji ma ze sobą bardzo bezpośrednie powiązania. Bardzo niewielu użytkowników jest dziś dobrze zorientowanych w tych kwestiach. Spróbujmy wyjaśnić, jaka jest moc alfabetu, jak ją obliczyć i zastosować w praktyce. W przyszłości niewątpliwie może się to przydać w praktyce.

Jak mierzona jest informacja

Zanim zaczniemy badać kwestię, jaka jest moc alfabetu i jaka jest w ogóle, powinniśmy zacząć, że tak powiem, od podstaw.

Z pewnością każdy wie, że obecnie istnieją specjalne systemy pomiaru dowolnych wielkości w oparciu o wartości referencyjne. Na przykład dla odległości i podobnych wielkości są to metry, dla masy i ciężaru - kilogramy, dla przedziałów czasowych - sekundy itp.

Ale jak mierzyć informację pod względem objętości tekstu? Właśnie dlatego wprowadzono koncepcję mocy alfabetu.

Jaka jest moc alfabetu: koncepcja wstępna

Kierując się więc ogólnie przyjętą zasadą, że ostateczna wartość dowolnej wielkości jest parametrem określającym, ile razy jednostka odniesienia jest zawarta w mierzonej wielkości, możemy dojść do wniosku: potęga alfabetu to całkowita liczba użytych symboli dla konkretnego języka.

Aby było to jaśniejsze, zostawmy na razie pytanie, jak znaleźć moc alfabetu i zwróćmy uwagę na same symbole, oczywiście z punktu widzenia technologia informacyjna. Z grubsza mówiąc, pełna lista użyte znaki obejmują litery, cyfry, wszelkiego rodzaju nawiasy, znaki specjalne, znaki interpunkcyjne itp. Jeśli jednak podejdziemy do pytania, jaka dokładnie jest moc alfabetu sposób komputerowy, powinno to również obejmować spację (pojedynczą przerwę między słowami lub innymi znakami).

Weźmy na przykład język rosyjski, a raczej układ klawiatury. Na podstawie powyższego pełna lista zawiera 33 litery, 10 cyfr i 11 znaków specjalnych. Zatem całkowita moc alfabetu wynosi 54.

Waga informacyjna znaków

Jednakże ogólna koncepcja potęga alfabetu nie przesądza o istocie obliczeń objętości informacyjnych tekstu zawierającego litery, cyfry i symbole. Wymaga to specjalnego podejścia.

Zasadniczo pomyśl o tym, cóż, z punktu widzenia taki mógłby być zestaw minimalny system komputerowy ile znaków może zawierać? Odpowiedź: dwa. I oto dlaczego. Faktem jest, że każdy symbol, czy to litera, czy cyfra, ma swoją wagę informacyjną, dzięki której maszyna rozpoznaje, co znajduje się przed nim. Ale komputer rozumie tylko reprezentację w postaci jedynek i zer, na czym w rzeczywistości opiera się cała informatyka.

Zatem dowolny znak można przedstawić jako ciągi zawierające cyfry 1 i 0, to znaczy minimalna sekwencja oznaczająca literę, cyfrę lub symbol składa się z dwóch składników.

Sama waga informacji, przyjęta jako standard element informacyjny pomiar nazywany jest bitem (1 bit). W związku z tym 8 bitów tworzy 1 bajt.

Reprezentacja znaków w kodzie binarnym

Myślę, że jaka jest moc alfabetu, jest już trochę jasne. Teraz spójrzmy na inny aspekt, w szczególności na praktyczną reprezentację mocy za pomocą. Jako przykład, dla uproszczenia, weźmy alfabet zawierający tylko 4 znaki.

W dwucyfrowym kodzie binarnym sekwencję i jej reprezentację informacyjną można opisać w następujący sposób:

Numer seryjny
Kod binarny

Stąd najprostszy wniosek: przy mocy alfabetu N=4 waga pojedynczego znaku wynosi 2 bity.

Jeżeli dla alfabetu składającego się np. z 8 znaków zastosujemy trzycyfrowy kod binarny, to ilość kombinacji będzie następująca:

Numer seryjny
Kod binarny

Innymi słowy, przy mocy alfabetu N=8, waga jednego symbolu dla trzycyfrowego kodu binarnego będzie równa 3 bitom.

alfabetu i użyj go w wyrażeniu komputerowym

Spróbujmy teraz przyjrzeć się zależności wyrażonej liczbą znaków w kodzie i mocą alfabetu. Formuła, gdzie N jest potęgą alfabetu, a b jest liczbą znaków w kodzie binarnym, będzie wyglądać następująco:

Oznacza to, że 2 1 =2, 2 2 =4, 2 3 =8, 2 4 =16 itd. Z grubsza mówiąc, wymagana liczba znaków samego kodu binarnego jest wagą symbolu. Informacyjnie wygląda to następująco:

Pomiar ilości informacji

Były to jednak tylko najprostsze przykłady, że tak powiem, pozwalające na wstępne zrozumienie, jaka jest moc alfabetu. Przejdźmy do ćwiczeń.

Na tym etapie rozwoju technologii komputerowej do wpisywania tekstu uwzględnia się wielkie i duże litery oraz litery cyrylicy i alfabetu łacińskiego, znaki interpunkcyjne, nawiasy, symbole arytmetyczne itp. Używa się 256 znaków. Bazując na tym, że 256 to 2 8, nietrudno zgadnąć, że waga każdego znaku w takim alfabecie wynosi 8, czyli 8 bitów, czyli 1 bajt.

Bazując na wszystkich znanych parametrach, możemy łatwo uzyskać pożądaną objętość informacyjną dowolnego tekstu. Na przykład mamy tekst komputerowy zawierający 30 stron. Jedna strona zawiera 50 linii po 60 dowolnych znaków lub symboli, łącznie ze spacjami.

Zatem jedna strona będzie zawierać 50 x 60 = 3000 bajtów informacji, a cały tekst będzie zawierał 3000 x 50 = 150 000 bajtów. Jak widać, mierzenie nawet małych tekstów w bajtach jest niewygodne. A co z całymi bibliotekami?

W w tym przypadku lepiej przekonwertować wolumin na mocniejsze jednostki - kilobajty, megabajty, gigabajty itp. Bazując na tym, że na przykład 1 kilobajt równa się 1024 bajtom (2 10), a megabajt to 2 10 kilobajtów (1024 kilobajtów), łatwo obliczyć, że objętość tekstu w informacjach i wyrażeniach matematycznych dla naszego przykładowo będzie to 150000/1024 = 146, 484375 kilobajtów lub około 0,14305 megabajtów.

Zamiast posłowia

Ogólnie rzecz biorąc, to w skrócie wszystko, co dotyczy rozważenia pytania o moc alfabetu. Pozostaje dodać, że w opisie tym zastosowano podejście czysto matematyczne. Jest rzeczą oczywistą, że w tym przypadku nie bierze się pod uwagę obciążenia semantycznego tekstu.

Jeśli jednak podchodzimy do kwestii rozważań właśnie z pozycji, która daje człowiekowi coś do zrozumienia, zbiór pozbawionych znaczenia kombinacji lub sekwencji symboli w tym zakresie będzie miał zerowy ładunek informacyjny, chociaż z punktu widzenia koncepcji informacji objętości, wynik nadal można obliczyć.

Ogólnie rzecz biorąc, wiedza o potędze alfabetu i pokrewnych pojęciach nie jest tak trudna do zrozumienia i można ją po prostu zastosować w sensie praktycznych działań. Co więcej, każdy użytkownik spotyka się z tym prawie codziennie. Wystarczy podać przykład popularnego Edytor słów lub jakikolwiek inny na tym samym poziomie, w którym taki system jest używany. Ale nie myl go ze zwykłym Notatnikiem. Tutaj siła alfabetu jest mniejsza, ponieważ podczas pisania nie używa się, powiedzmy, wielkich liter.

Materiały tematyczne: