Python Pandas é um kit de ferramentas de código aberto que fornece aos cientistas de dados e analistas recursos de manipulação e análise de dados usando a linguagem de programação Python. A biblioteca Pandas é muito popular na fase de pré-processamento de aprendizado de máquina e aprendizado profundo. Mas agora você pode fazer mais com ele…

Entrada de uma nova biblioteca de ciência de dados – Pandas AI. Uma biblioteca Python que integra recursos de inteligência artificial generativa em Pandas, tornando os quadros de dados conversacionais.

O que é Pandas AI?

O que significa tornar os quadros de dados conversacionais?

Isso significa exatamente o que ele diz – você pode falar com seu conjunto de dados. Sim, você ouviu, você pode falar com seus dados e obter respostas rápidas. Como cientista de dados ou analista, você não precisará mais ficar olhando para seu conjunto de dados, folheando linhas e colunas por horas intermináveis. Pandas AI não substitui Pandas, apenas dá um grande empurrão!

Cientistas de dados e analistas gastam muito tempo limpando dados para a fase de análise. Eles agora poderão levar sua análise de dados para o próximo nível. Os profissionais de dados analisam diferentes métodos e processos que podem usar para minimizar o tempo gasto na preparação de dados, e agora podem com a IA do Pandas.

PandasAI deve ser usado de mãos dadas com Pandas, não é um substituto para Pandas. Em vez de ter que folhear e responder perguntas sobre o conjunto de dados, você pode fazer essas perguntas ao PandasAI e ele retornará respostas na forma de Pandas DataFrames.

Dito isso, isso significa que as pessoas não precisam mais ser proficientes em Python para obter análise de dados usando ferramentas como a biblioteca Pandas?

Com a ajuda da API OpenAI, o Pandas AI visa atingir o objetivo de conversar virtualmente com uma máquina para produzir os resultados desejados, em vez de ter que programar a tarefa sozinho. A máquina produzirá o resultado em sua linguagem – código interpretável por máquina (DataFrame).

Como faço para usar o Pandas AI?

Instalando o Pandas AI usando pip

pip install pandasai

Importando PandasAI com OpenAI

Para fazer uso da nova biblioteca Pandas AI, você precisará de uma chave OpenAI. Depois de iniciar no seu bloco de notas, terá de importar o seguinte:

import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI

llm = OpenAI(api_token=your_API_key)

Se você não tiver uma chave de API OpenAI exclusiva, você pode criar uma conta na plataforma OpenAI e criar uma chave de API aqui. Você receberá um crédito de US$ 5 que pode ser usado para explorar e experimentar a API.

Depois de configurar, você está pronto para começar a usar o Pandas AI.

Executando o modelo em seu dataframe

Primeiro, você precisará executar seu modelo OpenAI para Pandas AI:

pandas_ai = PandasAI(openAImodel)

Em seguida, você precisará executar o modelo no quadro de dados, que consiste em ?? Dois parâmetros o quadro de dados com o qual você está trabalhando e a pergunta que deseja fazer:

pandas_ai.run(df, prompt='the question you would like to ask?')

Por exemplo, você pode estar examinando seu conjunto de dados e está interessado nas linhas em que o valor de uma coluna é maior que 5. Você pode fazer isso usando o Pandas AI:

import pandas as pd
from pandasai import PandasAI

# Sample DataFrame
df = pd.DataFrame({
    "country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
    "gdp": [19294482071552, 2891615567872, 2411255037952, 3435817336832, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
    "happiness_index": [6.94, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})

# Instantiate a LLM
from pandasai.llm.openai import OpenAI
llm = OpenAI()

pandas_ai = PandasAI(llm)
pandas_ai.run(df, prompt='Which are the 5 happiest countries?')

Ele retornará uma saída DataFrame:

6            Canada
7         Australia
1    United Kingdom
3           Germany
0     United States
Name: country, dtype: object

Ele também tem a capacidade de realizar consultas mais complexas, como cálculos matemáticos e visualizações de dados.

Um exemplo de visualização de dados:

pandas_ai.run(
    df,
    "Plot the histogram of countries showing for each the gpd, using different colors for each bar",
)

Saída de visualização de dados:

Saída de visualização de dados

A IA do Pandas é muito nova, e a equipe ainda está procurando maneiras de melhorar a biblioteca. A partir do dia 10 de maio, eles ainda têm o seguinte em sua lista:

  • Adicionar suporte para mais LLMs
  • Disponibilizar o PandasAI a partir de uma CLI
  • Criar uma interface web para PandasAI
  • Adicionar testes de unidade

São bem-vindos a sugestões e contribuições. Se você está interessado em contribuir para o crescimento da Pandas AI, consulte as diretrizes de contribuição.

Se você gostaria de ver um passo a passo do uso do Pandas AI, confira este vídeo:

Conclusão

Embora o Pandas AI não substitua o Pandas, é uma boa ferramenta para aumentar seu fluxo de trabalho. Embora você possa fazer perguntas ao Pandas AI sobre seu conjunto de dados, você ainda precisará ser proficiente em programação para corrigir e direcionar a biblioteca quando ela cometer erros.

Se você teve a chance de brincar com o Pandas AI, conte para a gente o que achou dele nos comentários abaixo!