Windows.  Virus.  Anteckningsböcker.  Internet.  kontor.  Verktyg.  Förare

Den alfabetiska metoden används för att mäta mängd information i en text representerad som en sekvens av tecken i något alfabet. Detta tillvägagångssätt är inte relaterat till innehållet i texten. Informationsmängden i detta fall kallas textens informationsvolym, som är proportionell mot storleken på texten - antalet tecken som utgör texten. Ibland kallas detta tillvägagångssätt för att mäta information den volymetriska metoden.

Varje tecken i texten innehåller en viss mängd information. Han heter symbol information vikt. Därför är textens informationsvolym lika med summan av informationsvikterna för alla tecken som utgör texten.

Här antas att texten är en på varandra följande sträng av numrerade tecken. I formel (1) i 1 anger informationsvikten för det första tecknet i texten, i 2 - informationsvikten för det andra tecknet i texten, etc.; K- textstorlek, dvs. det totala antalet tecken i texten.

Alla de många olika karaktärerna som används för att skriva texter, kallas alfabetiskt. Storleken på alfabetet kallas ett heltal kraften i alfabetet. Man bör komma ihåg att alfabetet inte bara innehåller bokstäverna i ett visst språk, utan alla andra tecken som kan användas i texten: siffror, skiljetecken, olika parenteser, mellanslag etc.

Att bestämma informationsvikterna för symboler kan ske i två approximationer:

1) under antagandet om lika sannolikhet (samma frekvens av förekomst) av vilken karaktär som helst i texten;

2) ta hänsyn till olika sannolikheter (olika förekomstfrekvens) för olika tecken i texten.

Approximation av lika sannolikhet för tecken i en text

Om vi ​​antar att alla tecken i alfabetet i någon text visas med samma frekvens, kommer informationsvikten för alla tecken att vara densamma. Låta N- kraften i alfabetet. Då är andelen av ett tecken i texten 1/ N textens del. Enligt definitionen av sannolikhet (jfr. ) detta värde är lika med sannolikheten för förekomsten av ett tecken i varje position i texten:

sid = 1/N

Enligt formeln av K. Shannon (se. ”Mätning av information. Innehållsstrategi”), mängden information som en symbol bär beräknas enligt följande:

i = log2(1/ sid) = log2 N(bit) (2)

Därför är informationsvikten för symbolen ( i) och alfabetets kardinalitet ( N) är sammankopplade med Hartley-formeln (se " Mätning av information. Innehållsstrategi” )

2 i = N.

Att känna till informationsvikten för ett tecken ( i) och storleken på texten, uttryckt som antalet tecken ( K), kan du beräkna informationsvolymen för texten med hjälp av formeln:

Jag= K · i (3)

Denna formel är en speciell version av formel (1), i det fall då alla symboler har samma informationsvikt.

Av formel (2) följer att kl N= 2 (binärt alfabet) informationsvikten för ett tecken är 1 bit.

Från den alfabetiska metoden för att mäta information1 bit -är informationsvikten för ett tecken från det binära alfabetet.

En större informationsenhet är byte.

1 byte -är informationsvikten för ett tecken från ett alfabet med en potens av 256.

Sedan 256 \u003d 2 8 följer kopplingen mellan en bit och en byte från Hartley-formeln:

2 i = 256 = 2 8

Härifrån: i= 8 bitar = 1 byte

För att representera texter lagrade och bearbetade i en dator används oftast ett alfabet med en kapacitet på 256 tecken. Därav,
1 tecken i en sådan text "väger" 1 byte.

Utöver biten och byten används även större enheter för att mäta information:

1 KB (kilobyte) = 2 10 byte = 1024 byte,

1 MB (megabyte) = 2 10 KB = 1024 KB,

1 GB (gigabyte) = 2 10 MB = 1024 MB.

Approximation av olika sannolikhet för förekomst av tecken i texten

Denna approximation tar hänsyn till att i en verklig text förekommer olika tecken med olika frekvenser. Därav följer att sannolikheterna för att olika karaktärer uppträder i en viss position i texten är olika och därför är deras informationsvikt olika.

Statistisk analys av ryska texter visar att frekvensen av bokstaven "o" är 0,09. Det betyder att för varje 100 tecken förekommer bokstaven "o" i genomsnitt 9 gånger. Samma nummer indikerar sannolikheten för att bokstaven "o" visas i en viss position i texten: sid o = 0,09. Det följer att informationsvikten för bokstaven "o" i den ryska texten är lika med:

Den sällsynta bokstaven i texterna är bokstaven "f". Dess frekvens är 0,002. Härifrån:

Av detta följer en kvalitativ slutsats: informationsvikten för sällsynta bokstäver är större än vikten hos ofta förekommande bokstäver.

Hur beräknar man informationsvolymen för texten, med hänsyn till de olika informationsvikterna för alfabetets symboler? Detta görs enligt följande formel:

Här N- storlek (kraft) av alfabetet; n j- antal upprepningar av teckennummer j i texten; I j- informationsvikt för symbolnummer j.

Alfabetisk ansats i datavetenskapskursen vid skolans grund

I informatikkursen på grundskolan sker elevernas bekantskap med det alfabetiska förhållningssättet för att mäta information oftast i samband med datorrepresentation av information. Huvudpåståendet lyder så här:

Mängden information mäts av storleken på den binära koden som denna information representeras med.

Eftersom all form av information representeras i datorns minne i form av en binär kod, är denna definition universell. Den är giltig för symbolisk, numerisk, grafisk och ljudinformation.

En karaktär ( ansvarsfrihet)binär kod bär 1lite information.

När man förklarar metoden för att mäta informationsvolymen för en text i den grundläggande informatikkursen, avslöjas denna fråga genom följande sekvens av begrepp: alfabet-teckenstorlek för binär kod-textens informationsvolym.

Resonemangets logik utvecklas från särskilda exempel till att få en allmän regel. Låt det bara finnas 4 tecken i alfabetet för något språk. Låt oss beteckna dem:, , , . Dessa tecken kan kodas med fyra tvåsiffriga binära koder: - 00, - 01, - 10, - 11. Här används alla placeringsalternativ på två tecken och två, vars antal är 2 2 = 4. A Alfabetet med fyra tecken är lika med två bitar.

Nästa specialfall är ett 8-teckens alfabet, där varje tecken kan kodas med en 3-bitars binär kod, eftersom antalet placeringar av två tecken i grupper om 3 är 2 3 = 8. Därför är informationsvikten för ett tecken från ett 8-teckens alfabet är 3 bitar. Etc.

Genom att generalisera specifika exempel får vi allmän regel: genom att använda b- bit binär kod, kan du koda ett alfabet som består av N = 2 b- symboler.

Exempel 1 För att skriva texten används endast små bokstäver i det ryska alfabetet och ett "mellanslag" används för att separera ord. Vad är informationsvolymen för en text som består av 2000 tecken (en utskriven sida)?

Lösning. Det finns 33 bokstäver i det ryska alfabetet. Genom att minska det med två bokstäver (till exempel "ё" och "й") och ange ett mellanslagstecken, får vi ett mycket bekvämt antal tecken - 32. Med hjälp av approximationen av lika sannolikhet för tecken skriver vi Hartley-formeln:

2i= 32 = 2 5

Härifrån: i= 5 bitar - informationsvikt för varje tecken i det ryska alfabetet. Då är informationsvolymen för hela texten lika med:

jag= 2000 5 = 10 000 bit

Exempel 2 Beräkna informationsvolymen för en text med en storlek på 2000 tecken, i vilken posten alfabetet för en datorrepresentation av texter med en kapacitet på 256 används.

Lösning. I detta alfabet är informationsvikten för varje tecken 1 byte (8 bitar). Därför är informationsvolymen för texten 2000 byte.

I praktiska uppgifter om detta ämne är det viktigt att utveckla elevernas färdigheter i att omvandla mängden information till olika enheter: bitar - byte - kilobyte - megabyte - gigabyte. Om vi ​​räknar om informationsvolymen för texten från exempel 2 till kilobyte får vi:

2000 byte = 2000/1024 1,9531 KB

Exempel 3 Volymen på meddelandet som innehöll 2048 tecken var 1/512 megabyte. Hur stor är alfabetet som meddelandet är skrivet med?

Lösning. Låt oss översätta informationsvolymen för meddelandet från megabyte till bitar. För att göra detta multiplicerar vi detta värde två gånger med 1024 (vi får byte) och en gång med 8:

jag= 1/512 1024 1024 8 = 16 384 bitar.

Eftersom denna mängd information bärs av 1024 tecken ( TILL), då står ett tecken för:

i = jag/K= 16 384/1024 = 16 bitar.

Det följer att storleken (kraften) på det använda alfabetet är 2 16 = 65 536 tecken.

Volumetrisk ansats i kursen datavetenskap på gymnasiet

Studerar datavetenskap i årskurs 10–11 på grundläggande allmän utbildningsnivå kan eleverna lämna sina kunskaper om det volymetriska förhållningssättet till att mäta information på samma nivå som beskrivits ovan, d.v.s. i samband med mängden binär datorkod.

När man studerar datavetenskap på profilnivå bör det volymetriska tillvägagångssättet övervägas från mer generella matematiska positioner, med hjälp av idéer om frekvensen av tecken i en text, om sannolikheter och sannolikheters samband med symbolernas informationsvikter.

Kunskap om dessa frågor är viktigt för en djupare förståelse av skillnaden i användningen av enhetlig och olikformig binär kodning (se. "Informationskodning"), för att förstå vissa datakomprimeringstekniker (se. "Datakomprimering") och kryptografiska algoritmer (se "Kryptografi" ).

Exempel 4 I alfabetet för MUMU-stammen finns det bara 4 bokstäver (A, U, M, K), ett skiljetecken (prick) och ett mellanslag används för att separera ord. Det beräknades att den populära romanen "Mumuka" endast innehåller 10 000 tecken, varav: bokstäverna A - 4000, bokstäverna U - 1000, bokstäverna M - 2000, bokstäverna K - 1500, punkter - 500, mellanslag - 1000. Hur mycket information innehåller bok?

Lösning. Eftersom bokens volym är ganska stor, kan det antas att förekomstfrekvensen i texten för var och en av alfabetets symboler beräknade utifrån den är typisk för vilken text som helst på MUMU-språket. Låt oss beräkna frekvensen av förekomsten av varje karaktär i hela bokens text (d.v.s. sannolikhet) och karaktärernas informationsvikter

Den totala mängden information i boken beräknas som summan av produkterna av informationsvikten för varje symbol och antalet upprepningar av denna symbol i boken:

För att mäta längd finns det sådana enheter som millimeter, centimeter, meter, kilometer. Det är känt att massa mäts i gram, kilogram, centners och ton. Tid som löper uttrycks i sekunder, minuter, timmar, dagar, månader, år, århundraden. Datorn arbetar med information och det finns även lämpliga måttenheter för att mäta dess volym.

Vi vet redan att en dator uppfattar all information.

Bit- detta är den minsta måttenheten för information, motsvarande en binär siffra ("0" eller "1").

Byte består av åtta bitar. Med en byte kan du koda ett tecken av 256 möjliga (256 = 2 8). Således är en byte lika med ett tecken, det vill säga 8 bitar:

1 tecken = 8 bitar = 1 byte.

Bokstav, siffra, skiljetecken är symboler. En bokstav, en symbol. En siffra är också ett tecken. Ett skiljetecken (antingen en punkt, eller ett kommatecken, eller ett frågetecken, etc.) är återigen ett tecken. Ett mellanslag är också ett tecken.

Studiet av datorkunskaper involverar övervägande av andra, större enheter för informationsmätning.

Bytetabell:

1 byte = 8 bitar

1 kb (1 Kilobyte) = 2 10 byte = 2*2*2*2*2*2*2*2*2*2 byte =
= 1024 byte (ungefär 1 tusen byte - 10 3 byte)

1 MB (1 Megabyte) = 2 20 byte = 1024 kilobyte (ungefär 1 miljon byte - 10 6 byte)

1 GB (1 gigabyte) = 2 30 byte = 1024 megabyte (ungefär 1 miljard byte - 10 9 byte)

1 TB (1 Terabyte) = 240 byte = 1024 gigabyte (ungefär 1012 byte). Terabyte kallas ibland ton.

1 Pb (1 Petabyte) = 2 50 byte = 1024 terabyte (ungefär 10 15 byte).

1 exabyte= 260 byte = 1024 petabyte (ungefär 1018 byte).

1 Zettabyte= 270 byte = 1024 exabyte (ungefär 1021 byte).

1 Yottabyte= 2 80 byte = 1024 zettabyte (ungefär 10 24 byte).

I tabellen ovan är tvåpotenser (2 10 , 2 20 , 2 30, etc.) de exakta värdena för kilobyte, megabyte, gigabyte. Men potenserna för talet 10 (mer exakt, 10 3 , 10 6 , 10 9 , etc.) kommer redan att vara ungefärliga värden, avrundade nedåt. Således representerar 2 10 = 1024 byte det exakta värdet av en kilobyte, och 10 3 = 1000 byte är det ungefärliga värdet av en kilobyte.

En sådan approximation (eller avrundning) är helt acceptabel och allmänt accepterad.

Följande är en bytetabell med engelska förkortningar (i den vänstra kolumnen):

1 Kb ~ 10 3 b = 10*10*10 b= 1000 b – kilobyte

1 Mb ~ 10 6 b = 10*10*10*10*10*10 b = 1 000 000 b - megabyte

1 Gb ~ 10 9 b - gigabyte

1 Tb ~ 10 12 b - terabyte

1 Pb ~ 10 15 b - petabyte

1 Eb ~ 10 18 b - exabyte

1 Zb ~ 10 21 b - zettabyte

1 Yb ~ 10 24 b - yottabyte

Ovanför i den högra kolumnen finns de så kallade "decimalprefixen", som används inte bara med bytes, utan också inom andra områden av mänsklig aktivitet. Till exempel betyder prefixet "kilo" i ordet "kilobyte" tusen byte, precis som det i fallet med en kilometer motsvarar tusen meter, och i exemplet med ett kilogram är det lika med tusen gram.

Fortsättning följer…

Frågan uppstår: har bytetabellen en fortsättning? Inom matematiken finns begreppet oändlighet, som betecknas som en inverterad åtta: ∞.

Det är tydligt att man i bytetabellen kan fortsätta att lägga till nollor, eller snarare, potenser till talet 10 på detta sätt: 10 27 , 10 30 , 10 33 och så vidare i det oändliga. Men varför är detta nödvändigt? I princip medan terabyte och petabyte räcker. I framtiden kanske inte ens en yottabyte räcker.

Slutligen ett par exempel på enheter som kan lagra terabyte och gigabyte med information.

Det finns en bekväm "terabyte" - extern HDD som ansluter via USB uttag till datorn. Den kan lagra en terabyte med information. Särskilt bekvämt för bärbara datorer (där ändringen hårddisk kan vara problematisk) och Reserv exemplar information. Det är bättre att göra det i förväg. säkerhetskopior information, inte efter att allt är borta.

Flash-enheter kommer i 1 GB, 2 GB, 4 GB, 8 GB, 16 GB, 32 GB, 64 GB och till och med 1 terabyte.

Informationsvolym av text och måttenheter för information


En modern dator kan bearbeta numerisk, text-, grafik-, ljud- och videoinformation. Alla dessa typer av information i en dator presenteras i binär kod, det vill säga endast två symboler 0 och 1 används. Detta beror på det faktum att det är bekvämt att representera information i form av en sekvens av elektriska impulser: där är ingen impuls (0), det finns en impuls (1).

Sådan kodning brukar kallas binär, och de logiska sekvenserna av nollor och ettor i sig kallas maskinspråk.

Hur lång måste en binär kod vara för att kunna koda tecken på ditt datortangentbord?

Således, informationsvikten för ett tecken i ett tillräckligt alfabet är 1 byte.

För att mäta stora informationsvolymer används större informationsenheter:

Enheter för att mäta mängden information:

1 byte = 8 bitar

1 kilobyte = 1 KB = 1024 byte

1 megabyte = 1 MB = 1024 KB

1 gigabyte = 1 GB = 1024 GB

Textens informationsvolym

1. Antal karaktärer i boken:

60 * 40 * 150 = 360 000 tecken.

2. Därför att 1 tecken väger 1 byte, bokens informationsvolym är

360 000 byte.

3. Konvertera byte till större enheter:

360 000 / 1024 = 351,56 KB

351,56 / 1024 = 0,34 MB

Svar: Textens informationsvolym är 0,34 Mb.

Uppgift:

Informationsvolymen för texten som förbereds med hjälp av en dator är 3,5 Kb. Hur många tecken innehåller denna text?

1. Låt oss konvertera volymen från MB till byte:

3,5 MB * 1024 = 3584 KB

3 584 kB * 1 024 = 3 670 016 byte

2. Därför att 1 tecken väger 1 byte, antalet tecken i texten är

Informationsmängd

Mängden information som ett mått för att minska kunskapsosäkerheten.
(Meningsfull metod för att bestämma mängden information)

Processen för kognition av omvärlden leder till ackumulering av information i form av kunskap (fakta, vetenskapliga teorier, etc.). Inhämtning av ny information leder till en ökad kunskap eller, som man ibland säger, till en minskning av kunskapsosäkerheten. Om ett visst meddelande leder till att osäkerheten i vår kunskap minskar, så kan vi säga att ett sådant meddelande innehåller information.

Till exempel efter att ha klarat ett prov eller genomfört ett prov plågas du av osäkerhet, du vet inte vilket betyg du fick. Till sist meddelar läraren resultatet och du får ett av två informationsmeddelanden: "godkänd" eller "underkänd", och efter testet ett av fyra informationsmeddelanden: "2", "3", "4" eller "5".

Ett informationsmeddelande om en bedömning för en kredit leder till en dubbel minskning av osäkerheten i din kunskap, eftersom ett av två möjliga informationsmeddelanden har mottagits. Informationsmeddelande om bedömningen för testa leder till en fyrfaldig minskning av osäkerheten i din kunskap, eftersom ett av de fyra möjliga informationsmeddelandena tas emot.

Det är klart att ju mer osäkert utgångsläget är (ju fler informationsmeddelanden är möjligt), desto mer ny information kommer vi att få vid mottagandet av informationsmeddelandet (desto fler gånger minskar kunskapsosäkerheten).

Informationsmängd kan betraktas som en åtgärd för att minska kunskapsosäkerheten vid mottagande av informationsmeddelanden.

Det ovan diskuterade synsättet på information som ett mått för att minska kunskapsosäkerheten gör det möjligt att mäta information kvantitativt. Det finns en formel som relaterar antalet möjliga informationsmeddelanden N och mängden information I som det mottagna meddelandet innehåller:

N = 2i (1.1)

Bit. För att kvantifiera en kvantitet måste du först bestämma måttenheten. Så, för att mäta längd, väljs en meter som en enhet, för att mäta massa - ett kilogram, etc. På samma sätt, för att bestämma mängden information, är det nödvändigt att ange en måttenhet.

Bakom informationsenhet mängden information som finns i informationsmeddelandet tas emot, vilket minskar kunskapsosäkerheten med hälften. Denna enhet kallas bit.

Om vi ​​återgår till mottagandet av ett informationsmeddelande om resultaten av offseten som betraktas ovan, så är osäkerheten här bara halverad och därför är mängden information som meddelandet bär lika med 1 bit.

Härledda enheter för att mäta mängden information. Den minsta enheten för att mäta mängden information är en bit, och den näst största enheten är en byte, och:

1 byte = 8 bitar = 2 3 bitar.

Inom datavetenskap är systemet för utbildning av flera måttenheter något annorlunda än de som accepteras inom de flesta vetenskaper. Traditionella metriska system av enheter, såsom International System of Units SI, använder en faktor på 10 n som multiplar av flera enheter, där n \u003d 3, 6, 9, etc., vilket motsvarar decimalprefixet "Kilo" ( 10 3), "Mega" (10 6), "Giga" (10 9), etc.

I en dator kodas information med hjälp av ett binärt teckensystem, och därför används koefficienten 2n i flera enheter för att mäta mängden information

Så, måttenheter för mängden information som är multipler av en byte skrivs in enligt följande:

1 kilobyte (KB) = 2 10 byte = 1024 byte;

1 megabyte (MB) = 2 10 KB = 1024 KB;

1 gigabyte (GB) = 2 10 MB = 1024 MB.

Kontrollfrågor

    1. Ge exempel på informationsmeddelanden som leder till att kunskapsosäkerheten minskar.
    2. Ge exempel på informationsmeddelanden som innehåller 1 bit information.

Bestämma mängden information

Bestämma antalet informationsmeddelanden. Enligt formel (1.1) kan man enkelt fastställa antalet möjliga informationsmeddelanden om mängden information är känd. Till exempel, i en tentamen tar du en examensbiljett, och läraren rapporterar att det visuella informationsmeddelandet om hans nummer innehåller 5 bitar av information. Om du vill bestämma antalet undersökningsbiljetter räcker det att bestämma antalet möjliga informationsmeddelanden om deras nummer med formeln (1.1):

Antalet examensbiljetter är alltså 32.

Bestämma mängden information. Tvärtom, om det möjliga antalet informationsmeddelanden N är känt, är det nödvändigt att lösa ekvationen för I för att bestämma mängden information som meddelandet bär.

Föreställ dig att du styr robotens rörelse och du kan ställa in riktningen för dess rörelse med hjälp av informationsmeddelanden: "nord", "nordost", "öst", "sydöst", "sydväst", "väst" och "nordväst" (bild 1.11). Hur mycket information kommer roboten att få efter varje meddelande?

Det finns 8 möjliga informationsmeddelanden totalt, så formel (1.1) tar formen av en ekvation för I:

Vi delar upp talet 8 på vänster sida av ekvationen i faktorer och representerar det i en potensform:

8 = 2 × 2 × 2 = 2 3 .

Vår ekvation:

Likheten mellan de vänstra och högra delarna av ekvationen är sann om exponenterna för talet 2 är lika, I = 3 bitar, det vill säga mängden information som varje informationsmeddelande bär till roboten är 3 bitar.

Alfabetisk metod för att bestämma mängden information

Med ett alfabetiskt förhållningssätt för att bestämma mängden information abstraherar man från innehållet i informationen och betraktar ett informationsmeddelande som en sekvens av tecken för ett visst teckensystem.

Skyltens informationskapacitet. Föreställ dig att det är nödvändigt att sända ett informationsmeddelande över en informationsöverföringskanal från avsändaren till mottagaren. Låt meddelandet kodas med ett teckensystem, vars alfabet består av N tecken (1, ..., N). I det enklaste fallet, när längden på meddelandekoden är ett tecken, kan avsändaren skicka ett av N möjliga meddelanden "1", "2", ..., "N", som kommer att innehålla mängden information I ( Fig. 1.5).

Ris. 1.5. Överföring av information

Formel (1.1) länkar antalet möjliga informationsmeddelanden N och mängden information I som det mottagna meddelandet innehåller. Sedan i den aktuella situationen är N antalet tecken i teckensystemets alfabet, och I är mängden information som varje tecken bär:

Med den här formeln kan du till exempel bestämma mängden information som ett tecken bär i ett binärt teckensystem:

N = 2 => 2 = 2 I => 2 1 = 2 I => I=1 bit.

Således, i ett binärt teckensystem, bär ett tecken 1 bit information. Det är intressant att själva måttenheten för mängden information "bit" (bit) har fått sitt namn från den engelska frasen "Binary siffraT" - "binär siffra".

Informationskapaciteten för ett tecken i ett binärt teckensystem är 1 bit

Ju fler tecken teckensystemets alfabet innehåller, desto mer information har ett tecken. Som ett exempel, låt oss bestämma mängden information som en bokstav i det ryska alfabetet bär. Det ryska alfabetet innehåller 33 bokstäver, men i praktiken används ofta bara 32 bokstäver för att skicka meddelanden (bokstaven "ё" är utesluten).

Med formeln (1.1) bestämmer vi mängden information som en bokstav i det ryska alfabetet bär:

N = 32 => 32 = 2 I => 2 5 = 2 I => I=5 bitar.

Således bär en bokstav i det ryska alfabetet 5 bitar av information (med en alfabetisk metod för att mäta mängden information).

Mängden information som en skylt bär på beror på sannolikheten att ta emot den. Om mottagaren i förväg vet exakt vilket tecken som kommer att anlända, kommer den mottagna mängden information att vara lika med 0. Omvänt, ju mindre sannolikt det är att tecknet tar emot, desto större informationskapacitet.

I ryskt skriftligt tal är frekvensen av att använda bokstäver i texten annorlunda, så i genomsnitt finns det 200 bokstäver "a" per 1000 tecken i en meningsfull text och hundra gånger färre bokstäver "f" (endast 2). Från informationsteoris synvinkel är informationskapaciteten för tecknen i det ryska alfabetet annorlunda (bokstaven "a" har den minsta och bokstaven "f" har den största).

Mängden information i meddelandet. Meddelandet består av en sekvens av tecken, som vart och ett innehåller en viss mängd information.

Om tecknen innehåller samma mängd information, kan mängden information I c i meddelandet beräknas genom att multiplicera mängden information I c som ett tecken bär med kodens längd (antal tecken i meddelandet) K:

I c \u003d I s × K

Så varje siffra i en binär datorkod innehåller information i 1 bit. Därför bär två siffror information i 2 bitar, tre siffror i 3 bitar, etc. Mängden information i bitar är lika med antalet siffror i en binär datorkod (tabell 1.1).

Tabell 1.1. Mängden information som en binär datorkod bär

Och många andra begrepp har de mest direkta kopplingarna till varandra. Mycket få användare idag är tillräckligt väl insatta i dessa frågor. Låt oss försöka klargöra vad alfabetets kraft är, hur man beräknar det och tillämpar det i praktiken. I framtiden kan detta utan tvekan vara användbart i praktiken.

Hur information mäts

Innan vi går vidare till studien av frågan om vad som är kraften i alfabetet, och i allmänhet, vad det är, bör vi börja så att säga från grunderna.

Alla vet säkert att det idag finns speciella system för att mäta eventuella kvantiteter utifrån referensvärden. Till exempel för avstånd och liknande mängder är dessa meter, för massa och vikt - kilogram, för tidsintervall - sekunder, etc.

Men hur mäter man information i termer av textvolym? Det var för detta som begreppet kardinalitet av ett alfabet introducerades.

Vad är kraften i alfabetet: det ursprungliga konceptet

Så om vi följer den allmänt accepterade regeln att det slutliga värdet för en kvantitet är en parameter som bestämmer hur många gånger referensenheten placeras i det uppmätta värdet, kan vi dra slutsatsen att kraften i alfabetet är det totala antalet symboler som används för ett visst språk.

För att göra det tydligare, låt oss lämna frågan om hur man hittar kraften i alfabetet åt sidan för nu, och uppmärksamma själva symbolerna, naturligtvis, ur synvinkel informationsteknik. Grovt sett innehåller den kompletta listan över använda symboler bokstäver, siffror, alla typer av parenteser, Särskilda symboler, skiljetecken osv. Men om vi närmar oss frågan om vad som är kraften i alfabetet exakt med dator, bör detta också innehålla ett mellanslag (ett enda mellanrum mellan ord eller andra tecken).

Låt oss ta det ryska språket som ett exempel, eller snarare, tangentbordslayouten. Baserat på det föregående innehåller den fullständiga listan 33 bokstäver, 10 siffror och 11 specialtecken. Således är den totala kraften i alfabetet 54.

Symbol information vikt

dock allmänt begrepp kraften i alfabetet bestämmer inte essensen av att beräkna informationsvolymerna för text som innehåller bokstäver, siffror och symboler. Detta kräver ett speciellt tillvägagångssätt.

I princip, tänk på det, ja, här är vad minimiuppsättningen kan vara ur synvinkel datorsystem hur många tecken kan den innehålla? Svar: två. Och det är varför. Faktum är att varje tecken, vare sig det är en bokstav eller en siffra, har sin egen informationsvikt, genom vilken maskinen känner igen vad som står framför den. Men datorn förstår bara representationen i form av ettor och nollor, som i själva verket all datavetenskap bygger på.

Således kan vilket tecken som helst representeras som sekvenser som innehåller siffrorna 1 och 0, det vill säga den minsta sekvensen som betecknar en bokstav, siffra eller symbol består av två komponenter.

Själva informationsvikten, tagen som standard informationsenhet mätning kallas en bit (1 bit). Följaktligen utgör 8 bitar 1 byte.

Representation av tecken i binär kod

Så vad som är kraften i alfabetet tror jag redan är lite tydligt. Låt oss nu titta på en annan aspekt, särskilt den praktiska representationen av makt med hjälp av För enkelhetens skull, låt oss ta ett alfabet som bara innehåller 4 tecken som ett exempel.

I en tvåsiffrig binär kod kan sekvensen och deras informationsrepresentation beskrivas enligt följande:

Serienummer

binär kod

Därför - den enklaste slutsatsen: med kraften i alfabetet N=4 är vikten av ett enda tecken 2 bitar.

Om du använder en tresiffrig binär kod för alfabetet, till exempel med 8 tecken, skulle antalet kombinationer vara:

Serienummer

binär kod

Med andra ord, med kapaciteten för alfabetet N=8, kommer vikten av ett tecken för en tresiffrig binär kod att vara lika med 3 bitar.

alfabetet och använd det i ett datoruttryck

Låt oss nu försöka titta på beroendet, som uttrycker antalet tecken i koden och kraften i alfabetet. Formeln, där N är den alfabetiska styrkan i alfabetet och b är antalet tecken i den binära koden, kommer att se ut så här:

Det vill säga 2 1 =2, 2 2 =4, 2 3 =8, 2 4 =16, etc. Grovt sett är det önskade antalet tecken i den binära koden i sig vikten av tecknet. Informationsmässigt ser det ut så här:

Mätning av informationsvolym

Detta var dock bara de enklaste exemplen, så att säga, för en första förståelse av vad alfabetets kraft är. Låt oss gå direkt till praktiken.

I detta skede i utvecklingen av datorteknik för att skriva, med hänsyn tagen till versaler, versaler och kyrilliska och latinska bokstäver, skiljetecken, parenteser, aritmetiska tecken, etc. 256 tecken används. Baserat på det faktum att 256 är 2 8 är det lätt att gissa att vikten av varje tecken i ett sådant alfabet är 8, det vill säga 8 bitar eller 1 byte.

Baserat på alla kända parametrar kan vi enkelt få värdet av informationsvolymen för vilken text vi behöver. Vi har till exempel en datortext som innehåller 30 sidor. En sida innehåller 50 rader med 60 tecken eller symboler, inklusive mellanslag.

Således kommer en sida att innehålla 50 x 60 = 3 000 byte med information, och hela texten kommer att innehålla 3 000 x 50 = 150 000 byte. Som du kan se är även små texter obekväma att mäta i byte. Hur är det med hela bibliotek?

I det här fallet det är bättre att konvertera volymen till mer kraftfulla värden - kilobyte, megabyte, gigabyte, etc. Utifrån att t ex 1 kilobyte är lika med 1024 byte (2 10), och en megabyte är 2 10 kilobyte (1024 kilobyte), är det lätt att räkna ut att mängden text i det informationsmatematiska uttrycket för vårt exempel kommer att vara 150000/1024=146, 484375 kilobyte eller ungefär 0,14305 megabyte.

Istället för ett efterord

I det stora hela är detta i korthet och allt som rör övervägandet av frågan, vad är alfabetets kraft. Det återstår att tillägga att ett rent matematiskt tillvägagångssätt har använts i denna beskrivning. Det säger sig självt att textens semantiska belastning i detta fall inte tas med i beräkningen.

Men om vi närmar oss frågorna om övervägande från en position som ger en person något att förstå, kommer en uppsättning meningslösa kombinationer eller sekvenser av tecken i detta avseende att ha noll informationsbelastning, även om det ur informationsbegreppets synvinkel volym, kan resultatet fortfarande beräknas.

Generellt sett är kunskap om kraften i alfabetet och relaterade begrepp inte så svår att förstå och kan helt enkelt tillämpas i betydelsen av praktiska handlingar. Samtidigt möter alla användare nästan varje dag detta. Det räcker med att citera det populära ordredigerare eller någon annan på samma nivå som använder ett sådant system. Men blanda inte ihop det med det vanliga Anteckningsblocket. Här är kraften i alfabetet lägre, eftersom till exempel versaler inte används när du skriver.

Om du upptäcker ett fel, välj en textbit och tryck på Ctrl + Retur
DELA MED SIG: