¿Cómo contar el número de líneas en un archivo CSV en Python?
Python es un lenguaje de programación popular que se utiliza ampliamente para el análisis de datos y la informática científica. Proporciona una amplia gama de bibliotecas y herramientas que simplifican y aceleran la manipulación y el análisis de datos. Una de esas bibliotecas es Pandas, que está construida sobre NumPy y proporciona estructuras de datos y herramientas de análisis de datos fáciles de usar para Python.
En este tutorial, exploraremos cómo contar el número de líneas en un archivo CSV usando Python y la biblioteca Pandas. Contar el número de líneas en un archivo CSV es una operación común que se requiere en tareas de análisis de datos y aprendizaje automático. Al usar Pandas, podemos leer fácilmente el archivo CSV en un objeto DataFrame y luego usar el atributo de forma o la función len() para contar el número de filas en el archivo. En la siguiente sección del artículo, recorreremos los pasos para leer un archivo CSV usando Pandas y luego demostraremos cómo contar la cantidad de líneas en el archivo usando varios métodos.
¿Cómo contar el número de líneas en un archivo CSV en Python?
Usaremos Python 3 y la biblioteca Pandas para contar el número de líneas en un archivo CSV.
Antes de comenzar, asegúrese de tener Python y Pandas instalados en su sistema. Si no tienes Pandas instalado, puedes instalarlo usando pip, que es el instalador de paquetes para Python.
Abra su símbolo del sistema (en Windows) o terminal (en Linux/macOS) y escriba el siguiente comando:
pip install pandas
El comando anterior descargará e instalará la biblioteca Pandas en su sistema.
Una vez instalada la biblioteca Pandas, podemos importarla a nuestro código Python usando la declaración de importación. Aquí hay un ejemplo de cómo importar Pandas:
import pandas as pd
En el código anterior, importamos la biblioteca Pandas y le asignamos un alias como pd para simplificar. Esta es una convención muy común utilizada en la programación Python. Ahora que hemos importado Pandas, podemos comenzar a usar sus funciones y clases en nuestro código para contar la cantidad de archivos en un archivo CSV.
Usaremos el método read_csv() de Pandas para leer el archivo CSV en un objeto DataFrame. El objeto DataFrame es una estructura de datos similar a una tabla bidimensional que se usa comúnmente en tareas de manipulación y análisis de datos.
Para leer un archivo CSV usando Pandas, podemos usar el siguiente fragmento de código:
import pandas as pd
df = pd.read_csv('sample.csv')
En el ejemplo de código anterior, utilizamos el método read_csv() de Pandas para leer un archivo CSV llamado sample.csv. Esto devolverá un objeto DataFrame que contiene los datos del archivo CSV. La variable df se utiliza para almacenar este objeto DataFrame.
Pandas proporciona dos formas sencillas de contar el número de filas en un objeto DataFrame: usando el atributo de forma y la función len().
Usando el atributo de forma del marco de datos
El atributo de forma del objeto DataFrame se puede utilizar para obtener el número de filas y columnas en el DataFrame. Dado que el número de filas en el DataFrame corresponde al número de líneas en el archivo CSV, podemos usar el primer elemento de la tupla del atributo de forma para obtener el número de líneas en el archivo CSV.
Ejemplo
# Import the pandas library as pd
import pandas as pd
# Read the CSV file into a pandas DataFrame object
df = pd.read_csv('filename.csv')
# Get the number of rows in the DataFrame, which is equal to the number of lines in the CSV file
num_lines = df.shape[0]
# Print the number of lines in the CSV file
print("Number of lines in the CSV file: ", num_lines)
En el código anterior, utilizamos el atributo de forma del objeto DataFrame para obtener el número de filas en el DataFrame, que corresponde al número de líneas en el archivo CSV. Luego almacenamos este valor en la variable num_lines y lo imprimimos en la consola. El resultado del fragmento de código anterior se verá así:
Producción
Number of lines in the CSV file: 10
Ahora que sabemos cómo contar el número de líneas en un archivo CSV en Python usando el atributo de forma del marco de datos, avancemos y aprendamos sobre el método len():
Usando la función len()
Alternativamente, también podemos usar la función len() incorporada para contar el número de filas en el DataFrame, que nuevamente corresponde al número de líneas en el archivo CSV.
Ejemplo
# Import the pandas library as pd
import pandas as pd
# Read the CSV file into a pandas DataFrame object
df = pd.read_csv('filename.csv')
# Count the number of rows in the DataFrame object using the built-in len() function
num_lines = len(df)
# Print the number of lines in the CSV file
print("Number of lines in the CSV file: ", num_lines)
En el extracto de código anterior, estamos usando la función len() para obtener el número de filas en el DataFrame, que nuevamente corresponde al número de líneas en el archivo CSV. Luego almacenamos este valor en la variable num_lines y lo imprimimos en la terminal. Nuevamente, el resultado del código anterior se verá así:
Producción
Number of lines in the CSV file: 10
Conclusión
En este tutorial, aprendimos cómo contar la cantidad de líneas en un archivo CSV usando Python y la biblioteca Pandas. Proporcionamos ejemplos de dos métodos: usar el atributo de forma DataFrame y usar la función incorporada len(). Al usar Pandas, podemos leer fácilmente el archivo CSV en un objeto DataFrame y luego contar el número de filas en el archivo usando el atributo de forma o la función len(). También proporcionamos un ejemplo de código funcional para cada uno de los métodos para que le resulte más fácil seguirlo.