Búsqueda de sitios web

Crear un DataFrame de Pandas a partir de listas


Un Pandas DataFrame es una tabla bidimensional con filas y columnas que son inmutables, lo que significa que no se pueden cambiar una vez creadas. Crear un DataFrame desde cero con listas es una tarea común en ciencia de datos y tecnología de la información. Una lista es una colección ordenada de elementos y es una de las estructuras de datos más utilizadas en Python. Una lista puede almacenar cualquier tipo de valores, como números, cadenas y valores booleanos.

En este documento, proporcionaré una explicación detallada de cómo crear Pandas DataFrame a partir de listas con ejemplos del mundo real utilizando instrucciones paso a paso, fragmentos de código y explicaciones de cada subsección.

¿Cuáles son las diferencias clave entre marco de datos y lista?

Una lista es una estructura de datos básica en Python que puede contener una colección de elementos de cualquier tipo de datos, mientras que un marco de datos es una estructura bidimensional similar a una tabla, similar a una hoja de cálculo o una tabla SQL, que almacena datos en filas y columnas. Aquí hay algunas diferencias clave entre un marco de datos y una lista:

  • Estructura: una lista es una colección simple y unidimensional de valores, mientras que un marco de datos es una estructura bidimensional similar a una tabla que tiene filas y columnas.

  • Tipos de datos: una lista puede contener elementos de cualquier tipo de datos, incluidos números, cadenas e incluso otras listas, mientras que un marco de datos está diseñado para contener datos en formato tabular, con columnas de tipos de datos específicos. como números enteros, flotantes y cadenas.

  • Tamaño: una lista puede contener cualquier cantidad de elementos, mientras que un marco de datos generalmente está diseñado para contener una gran cantidad de datos, con potencialmente millones de filas y columnas.

  • Operaciones: una lista admite operaciones básicas como indexar, dividir y agregar, mientras que un marco de datos admite operaciones más complejas como filtrar, unir y agrupar.

  • Manipulación de datos: una lista proporciona una funcionalidad básica para la manipulación de datos, mientras que un marco de datos proporciona herramientas poderosas para la manipulación de datos, como filtrar, ordenar y agregar datos según criterios específicos.

Requisitos previos

Antes de sumergirnos en la tarea, se espera que se instalen algunas cosas en su sistema:

Lista de configuraciones recomendadas:

  • pip instalar pandas, bokeh

  • Se espera que el usuario tenga acceso a cualquier IDE independiente como VS-Code, PyCharm, Atom o Sublime Text.

  • Incluso se pueden utilizar compiladores de Python en línea, como Kaggle.com, la plataforma Google Cloud o cualquier otro.

  • Versión actualizada de Python. Al momento de escribir el artículo he usado la versión 3.10.9.

  • Conocimiento del uso del cuaderno Jupyter.

  • El conocimiento y la aplicación del entorno virtual serían beneficiosos pero no obligatorios.

  • También se espera que la persona tenga buenos conocimientos de estadística y matemáticas.

Pasos requeridos

Importación de bibliotecas

Para crear un DataFrame en Pandas, necesitamos importar la biblioteca de Pandas. El siguiente código se utiliza para importar la biblioteca Pandas:

import pandas as pd

Creando listas

Antes de que podamos crear un DataFrame usando listas, primero debemos crear listas para almacenar los datos. En esta sección, le mostraré cómo crear listas con ejemplos del mundo real utilizando datos simples.

Crear una lista de nombres

names = ['John', 'Mary', 'Peter', 'Jane', 'Daniel']

En el fragmento de código anterior, creamos una lista llamada "nombres" que contiene cinco valores de cadena que representan los nombres de las personas.

Crear una lista de edades

ages = [32, 25, 41, 29, 36]

En el fragmento de código anterior, creamos una lista llamada "edades" que contiene cinco valores enteros que representan las edades de los individuos.

Crear una lista de valores booleanos

current_status = [True, False, True, False, True]

En el fragmento de código anterior, creamos una lista llamada `current_status` que contiene cinco valores booleanos que representan el estado actual de las personas.

Crear un marco de datos a partir de listas

Una vez que tengamos las listas que contienen los datos, podemos usar la función `pd.DataFrame()` para crear un DataFrame en Pandas. Podemos pasar las listas como argumentos a la función `pd.DataFrame()`. El siguiente código se utiliza para crear un DataFrame a partir de listas:

df = pd.DataFrame(list(zip(names, ages, current_status)), columns=['Name', 'Age', 'Current_Status'])

En el fragmento de código anterior, primero creamos una lista de tuplas usando la función `zip()`. La función `zip()` combina las listas en una única lista de tuplas. Luego pasamos esta lista de tuplas como primer argumento a la función `pd.DataFrame()`.

El segundo argumento de la función `pd.DataFrame()` es una lista de nombres de columnas para el DataFrame. En este caso, utilizamos `columns=['Name', 'Ege', 'Current_Status']` para especificar los nombres de las columnas como `Name`, `Ege` y `Current_Status`.

Ver el marco de datos

Después de crear el DataFrame, podemos usar la función `.head()` para ver las primeras filas del DataFrame. El siguiente código se utiliza para mostrar las primeras filas del DataFrame:

print(df.head())

En el fragmento de código anterior, utilizamos la función `.head()` para mostrar las primeras filas del DataFrame.

Producción

    Name   Age  Current_Status
0   John   32            True
1   Mary   25           False
2   Peter  41            True
3   Jane   29           False
4   Daniel 36            True

En el resultado anterior podemos crear un marco de datos a partir de la lista.

Conclusión

En este documento, proporcioné una guía paso a paso sobre cómo crear un Pandas DataFrame a partir de listas. Demostré cómo importar la biblioteca Pandas, crear listas y cómo crear un DataFrame usando la función `pd.DataFrame()`. Además, mostré cómo ver las primeras filas del DataFrame usando la función `.head()`. Si sigue estas instrucciones, ahora debería poder crear Pandas DataFrame a partir de listas con ejemplos del mundo real.

Artículos relacionados: