Vadnica za pande v Pythonu

V tej lekciji o knjižnici Python Pandas si bomo ogledali različne podatkovne strukture, ki jih ta paket Python ponuja za hitre funkcije obdelave podatkov, ki so učinkovite za dinamične podatke in upravljanje zapletenih operacij nad večdimenzionalnimi podatki. V tej lekciji bomo v glavnem obravnavali:

Kaj je Pandas paket
Namestitev in začetek
Nalaganje podatkov iz datotek CSV v Pandas DataFrame
Kaj je DataFrame in kako deluje
Rezanje podatkovnih okvirov
Matematične operacije nad DataFrame

To se zdi veliko za pokriti. Začnimo zdaj.

Kaj je paket Python Pandas?

Po Pandasovi domači strani: pandas je odprtokodna knjižnica z licenco BSD, ki ponuja visoko zmogljive, enostavne podatkovne strukture in orodja za analizo podatkov za programski jezik Python.

Ena najbolj kul stvari pri Pandah je, da omogoča branje podatkov iz običajnih podatkovnih formatov, kot so CSV, SQL itd. zelo enostaven, zaradi česar je enako uporaben v aplikacijah za proizvodno raven ali samo v nekaterih predstavitvenih aplikacijah.

Namestite Python Pande

Samo opomba pred začetkom namestitvenega postopka za to lekcijo uporabljamo navidezno okolje, ki smo ga naredili z naslednjim ukazom:

python -m virtualenv pand
izvor pand / bin / activate

Ko je navidezno okolje aktivno, lahko v navidezno env namestimo knjižnico pand, da lahko izvajamo primere, ki jih ustvarimo v naslednjem primeru:

pip namestite pande

Lahko pa s Condo namestimo ta paket z naslednjim ukazom:

conda namestite pande

Nekaj takega vidimo, ko izvršimo zgornji ukaz:

Ko se namestitev konča s Condo, bomo paket v naših skriptih Python lahko uporabljali kot:

uvozi pande kot pd

Začnimo zdaj uporabljati Pande v naših skriptih.

Branje datoteke CSV s Pandas DataFrames

S Pandas je branje datoteke CSV enostavno. Za predstavitev smo izdelali majhno datoteko CSV z naslednjo vsebino:

Ime, RollNo, datum sprejema, kontakt za nujne primere
Shubham, 1. maja 2005, 9988776655
Gagan, 20. 5. 2009, 8364517829
Oshima, 3,20-05-2003,5454223344
Vyom, 4.20-05-2009,1223344556
Ankur, 5,20-05-1999,9988776655
Vinod, 6,20-05-1999,9988776655
Vipin, 7.20-05-2002,9988776655
Ronak, 8.20-05-2007,1223344556
DJ, 9,20-05-2014,9988776655
VJ, 10.20.05.2015,9988776655

Datoteko shranite v isti imenik kot skript Python. Ko je datoteka prisotna, dodajte naslednji delček kode v datoteko Python:

uvozi pande kot pd
študentje = pd.read_csv ("študentje.csv ")
študentov.glava ()

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

Funkcijo head () v Pandah lahko uporabite za prikaz vzorca podatkov, ki so prisotni v DataFrame. Počakaj, DataFrame? V naslednjem poglavju bomo preučili veliko več o DataFrameju, vendar samo razumemo, da je DataFrame n-dimenzionalna podatkovna struktura, ki se lahko uporablja za hrambo in analizo ali zapletene operacije nad nizom podatkov.

Prav tako lahko vidimo, koliko vrstic in stolpcev imajo trenutni podatki:

študentov.obliko

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

Upoštevajte, da Pande štejejo tudi število vrstic od 0.

Na seznamu s Pandami lahko dobite samo stolpec. To lahko storite s pomočjo indeksiranje v Pandah. Oglejmo si kratek delček kode za isto:

student_names = students ['Ime']
študentska imena

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

Ampak to ni videti kot seznam, kajne? No, za pretvorbo tega predmeta v seznam moramo izrecno poklicati funkcijo:

študentska imena = študentska imena.našteti()
študentska imena

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

Samo za dodatne informacije lahko zagotovimo, da je vsak element na seznamu edinstven, in izberemo samo neprazne elemente, tako da dodamo nekaj preprostih preverjanj, kot so:

student_names = students ['Ime'].dropna ().edinstven ().našteti()

V našem primeru se izhod ne bo spremenil, saj seznam že ne vsebuje nobenih nepravilnih vrednosti.

Prav tako lahko naredimo DataFrame s surovimi podatki in skupaj z njim posredujemo imena stolpcev, kot je prikazano v naslednjem delčku kode:

my_data = pd.DataFrame (
[
[1, "Chan"],
[2, "Smith"],
[3, "Winslet"]
],
stolpci = ["Rank", "Last Name"]
)
my_data

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

Rezanje podatkovnih okvirov

Razčlenitev okvirjev podatkov za izločanje samo izbranih vrstic in stolpcev je pomembna funkcionalnost, ki skrbi za potrebne dele podatkov, ki jih moramo uporabiti. V ta namen nam Pandas omogoča, da po potrebi in po potrebi razrežemo DataFrame z izjavami, kot so:

iloc [: 4 ,:] - izbere prve 4 vrstice in vse stolpce za te vrstice.
iloc [:,:] - izbran je celoten okvir podatkov
iloc [5:, 5:] - vrstice od položaja 5 naprej in stolpci od položaja 5 naprej.
iloc [:, 0] - prvi stolpec in vse vrstice stolpca.
iloc [9 ,:] - 10. vrstica in vsi stolpci za to vrstico.

V prejšnjem razdelku smo že videli indeksiranje in rezanje z imeni stolpcev namesto indeksov. Prav tako je mogoče rezanje mešati z indeksnimi številkami in imeni stolpcev. Oglejmo si preprost delček kode:

študentov.loc [: 5, 'Ime']

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

Določiti je mogoče več kot en stolpec:

študentov.loc [: 5, ['Ime', 'Kontakt za nujne primere']]

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

Struktura podatkov serije v Pandah

Tako kot Pandas (ki je večdimenzionalna podatkovna struktura) je tudi serija enodimenzionalna podatkovna struktura v Pandah. Ko pridobimo en stolpec iz DataFrame, dejansko delamo s serijo:

vrsta (študentje ["Ime"])

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

Lahko izdelamo tudi svojo serijo, tukaj je delček kode za isto:

serija = pd.Series (['Shubham', 3.7])
serije

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

Kot je razvidno iz zgornjega primera, lahko serija vsebuje več vrst podatkov tudi za isti stolpec.

Logični filtri v programu Pandas DataFrame

Ena izmed dobrih stvari v Pandah je, kako iz podatkovnega okvira pridobivati podatke na podlagi stanja. Tako kot pridobivanje študentov samo, če je število zvitkov večje od 6:

roll_filter = študenti ['RollNo']> 6
roll_filter

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

No, tega nismo pričakovali. Čeprav je v izhodni obliki povsem jasno, katere vrstice izpolnjujejo filter, ki smo ga zagotovili, pa še vedno nimamo natančnih vrstic, ki bi zadovoljile ta filter. Izkazalo se je filtre lahko uporabimo kot indekse DataFrame kot tudi:

študenti [roll_filter]

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

V filtru je mogoče uporabiti več pogojev, tako da je mogoče podatke filtrirati v enem jedrnatem filtru, na primer:

next_filter = (študenti ['RollNo']> 6) & (študenti ['Ime']> 'S')
študenti [naslednji_filter]

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

Izračun mediane

V DataFrame lahko izračunamo tudi številne matematične funkcije. Dali bomo dober primer izračuna mediane. Mediana bo izračunana za datum, ne samo za številke. Oglejmo si kratek delček kode za isto:

datumi = študenti ['Datum sprejema'].astype ('datetime64 [ns]').kvantil (.5)
datumi

Ko zaženemo zgornji delček kode, bomo videli naslednji izhod:

To smo dosegli tako, da smo najprej indeksirali datumski stolpec, ki ga imamo, nato pa stolpcu podali podatkovni tip, tako da ga lahko Pandas pravilno sklepa, ko uporabi funkcijo kvantilov za izračun mediane datuma.

Zaključek

V tej lekciji smo preučili različne vidike knjižnice za obdelavo Pandas, ki jo lahko uporabljamo s Pythonom za zbiranje podatkov iz različnih virov v podatkovno strukturo DataFrame, ki nam omogoča prefinjeno delovanje nabora podatkov. Omogoča tudi, da dobimo podnabor podatkov, na katerih želimo trenutno delati, in ponuja veliko matematičnih operacij.

Prosimo, delite svoje povratne informacije o lekciji na Twitterju z @sbmaggarwal in @LinuxHint.