Crear un DataFrame de Pandas a partir de listas
Un Pandas DataFrame es una tabla bidimensional con filas y columnas que son inmutables, lo que significa que no se pueden cambiar una vez creadas. Crear un DataFrame desde cero con listas es una tarea común en ciencia de datos y tecnología de la información. Una lista es una colección ordenada de elementos y es una de las estructuras de datos más utilizadas en Python. Una lista puede almacenar cualquier tipo de valores, como números, cadenas y valores booleanos.
En este documento, proporcionaré una explicación detallada de cómo crear Pandas DataFrame a partir de listas con ejemplos del mundo real utilizando instrucciones paso a paso, fragmentos de código y explicaciones de cada subsección.
¿Cuáles son las diferencias clave entre marco de datos y lista?
Una lista es una estructura de datos básica en Python que puede contener una colección de elementos de cualquier tipo de datos, mientras que un marco de datos es una estructura bidimensional similar a una tabla, similar a una hoja de cálculo o una tabla SQL, que almacena datos en filas y columnas. Aquí hay algunas diferencias clave entre un marco de datos y una lista:
Estructura: una lista es una colección simple y unidimensional de valores, mientras que un marco de datos es una estructura bidimensional similar a una tabla que tiene filas y columnas.
Tipos de datos: una lista puede contener elementos de cualquier tipo de datos, incluidos números, cadenas e incluso otras listas, mientras que un marco de datos está diseñado para contener datos en formato tabular, con columnas de tipos de datos específicos. como números enteros, flotantes y cadenas.
-
Tamaño: una lista puede contener cualquier cantidad de elementos, mientras que un marco de datos generalmente está diseñado para contener una gran cantidad de datos, con potencialmente millones de filas y columnas.
Operaciones: una lista admite operaciones básicas como indexar, dividir y agregar, mientras que un marco de datos admite operaciones más complejas como filtrar, unir y agrupar.
Manipulación de datos: una lista proporciona una funcionalidad básica para la manipulación de datos, mientras que un marco de datos proporciona herramientas poderosas para la manipulación de datos, como filtrar, ordenar y agregar datos según criterios específicos.
Requisitos previos
Antes de sumergirnos en la tarea, se espera que se instalen algunas cosas en su sistema:
Lista de configuraciones recomendadas:
pip instalar pandas, bokeh
Se espera que el usuario tenga acceso a cualquier IDE independiente como VS-Code, PyCharm, Atom o Sublime Text.
Incluso se pueden utilizar compiladores de Python en línea, como Kaggle.com, la plataforma Google Cloud o cualquier otro.
Versión actualizada de Python. Al momento de escribir el artículo he usado la versión 3.10.9.
Conocimiento del uso del cuaderno Jupyter.
-
El conocimiento y la aplicación del entorno virtual serían beneficiosos pero no obligatorios.
También se espera que la persona tenga buenos conocimientos de estadística y matemáticas.
Pasos requeridos
Importación de bibliotecas
Para crear un DataFrame en Pandas, necesitamos importar la biblioteca de Pandas. El siguiente código se utiliza para importar la biblioteca Pandas:
import pandas as pd
Creando listas
Antes de que podamos crear un DataFrame usando listas, primero debemos crear listas para almacenar los datos. En esta sección, le mostraré cómo crear listas con ejemplos del mundo real utilizando datos simples.
Crear una lista de nombres
names = ['John', 'Mary', 'Peter', 'Jane', 'Daniel']
En el fragmento de código anterior, creamos una lista llamada "nombres" que contiene cinco valores de cadena que representan los nombres de las personas.
Crear una lista de edades
ages = [32, 25, 41, 29, 36]
En el fragmento de código anterior, creamos una lista llamada "edades" que contiene cinco valores enteros que representan las edades de los individuos.
Crear una lista de valores booleanos
current_status = [True, False, True, False, True]
En el fragmento de código anterior, creamos una lista llamada `current_status` que contiene cinco valores booleanos que representan el estado actual de las personas.
Crear un marco de datos a partir de listas
Una vez que tengamos las listas que contienen los datos, podemos usar la función `pd.DataFrame()` para crear un DataFrame en Pandas. Podemos pasar las listas como argumentos a la función `pd.DataFrame()`. El siguiente código se utiliza para crear un DataFrame a partir de listas:
df = pd.DataFrame(list(zip(names, ages, current_status)), columns=['Name', 'Age', 'Current_Status'])
En el fragmento de código anterior, primero creamos una lista de tuplas usando la función `zip()`. La función `zip()` combina las listas en una única lista de tuplas. Luego pasamos esta lista de tuplas como primer argumento a la función `pd.DataFrame()`.
El segundo argumento de la función `pd.DataFrame()` es una lista de nombres de columnas para el DataFrame. En este caso, utilizamos `columns=['Name', 'Ege', 'Current_Status']` para especificar los nombres de las columnas como `Name`, `Ege` y `Current_Status`.
Ver el marco de datos
Después de crear el DataFrame, podemos usar la función `.head()` para ver las primeras filas del DataFrame. El siguiente código se utiliza para mostrar las primeras filas del DataFrame:
print(df.head())
En el fragmento de código anterior, utilizamos la función `.head()` para mostrar las primeras filas del DataFrame.
Producción
Name Age Current_Status
0 John 32 True
1 Mary 25 False
2 Peter 41 True
3 Jane 29 False
4 Daniel 36 True
En el resultado anterior podemos crear un marco de datos a partir de la lista.
Conclusión
En este documento, proporcioné una guía paso a paso sobre cómo crear un Pandas DataFrame a partir de listas. Demostré cómo importar la biblioteca Pandas, crear listas y cómo crear un DataFrame usando la función `pd.DataFrame()`. Además, mostré cómo ver las primeras filas del DataFrame usando la función `.head()`. Si sigue estas instrucciones, ahora debería poder crear Pandas DataFrame a partir de listas con ejemplos del mundo real.