A crescente integração da Inteligência Artificial no ambiente profissional contábil tem impulsionado a necessidade de avaliar sua eficácia em tarefas técnicas e decisórias. Dentre essas aplicações, destaca-se o uso de modelos de linguagem para resolver questões relacionadas a normas, cálculos financeiros e interpretação contábil. Este estudo é particularmente relevante porque analisa, de forma comparativa, o desempenho de diferentes modelos de IA frente a questões do Exame de Suficiência do CFC — uma avaliação que exige domínio técnico e interpretativo. Ao investigar como distintos frameworks de prompts influenciam a precisão das respostas, o estudo contribui diretamente para o aprimoramento do uso de IA em contextos profissionais, educacionais e de consultoria especializada na área contábil e fiscal.
1. Introdução
Este relatório apresenta um estudo comparativo sobre a assertividade de diferentes modelos de Inteligência Artificial (IA), aplicados a questões do Exame de Suficiência 2024 do Conselho Federal de Contabilidade (CFC), utilizando dois frameworks distintos de prompts. O objetivo é analisar como a estruturação dos prompts influencia o desempenho dos modelos em tarefas relacionadas à contabilidade.
A relevância deste estudo está na aplicação prática dos modelos de IA em ambientes contábeis e fiscais, onde podem apoiar profissionais na resolução de problemas técnicos com maior agilidade, precisão e consistência.
2. Metodologia
2.1 Modelos Avaliados
- GPT4o mini
- GPT4o
- GPT4.5 Preview
- O3-mini
- O1
2.2 Frameworks de Prompts
Framework de Raciocínio de Greg Brockman: Estimula o modelo a apresentar seu raciocínio passo a passo (Chain-of-Thought), favorecendo a resolução de problemas complexos que exigem lógica estruturada, como cálculos e análises detalhadas. É útil em contextos que exigem explicitação do pensamento.
Framework GPT Wizard by RDD: Criado para elaborar prompts voltados a GPTs e agentes consultivos que respondem sobre legislação e normas contábeis/fiscais. Foca em respostas objetivas, normativas e juridicamente fundamentadas, com clareza e precisão interpretativa.
2.3 Configuração de Teste
- Temperatura: 0,10
- TOP P: 0,10
Esses valores foram definidos para minimizar a aleatoriedade nas respostas, maximizando a previsibilidade e reprodutibilidade dos resultados. Tais configurações são recomendadas para aplicações que exigem consistência e precisão técnica.Para modelos com raciocínio explícito, os parâmetros não foram ajustados.
2.4 Questões Avaliadas
Foram utilizadas três questões da prova tipo 1 do Exame do CFC 2024:
- Questão 38: Cálculo do ponto de equilíbrio financeiro
- Questão 41: Identificação do valor do custo perdido
- Questão 42: Determinação do ciclo financeiro
Essas questões representam níveis variados de complexidade, permitindo testar os modelos em contextos distintos de interpretação e cálculo contábil.
3. Resultados
3.1 Questão 38 – Ponto de Equilíbrio
- Resposta correta oficial: alternativa C
- Esta questão exigiu dos modelos a correta identificação de custos fixos e variáveis, bem como a aplicação da fórmula de ponto de equilíbrio, demandando raciocínio matemático estruturado.
- GPT4o mini e GPT4o: erraram em ambos os frameworks, optando por D.
- GPT4.5 Preview: acertou consistentemente.
- O3-mini: acertou apenas com o framework de Greg Brockman (High Reasoning).
- O1: foi o mais consistente, acertando nos três níveis com Greg Brockman; no GPT Wizard by RDD, acertou apenas em High Reasoning.
3.2 Questão 41 – Custo Perdido
- Resposta correta oficial: alternativa B
- Todos os modelos acertaram essa questão, independentemente do framework e do nível de raciocínio, demonstrando baixa complexidade e alta clareza interpretativa.
3.3 Questão 42 – Ciclo Financeiro
- Resposta correta oficial: alternativa A
- Também foi resolvida corretamente por todos os modelos em ambos os frameworks, reforçando que questões diretas e conceituais são menos afetadas pela variação de prompt.
4. Análise Comparativa entre Frameworks
- Greg Brockman: melhor desempenho em questões complexas, especialmente quando os modelos precisam detalhar raciocínios intermediários. Foi crucial para acertos consistentes na Questão 38.
- GPT Wizard by RDD: mais adequado para questões normativas e de aplicação direta de regras contábeis e fiscais. Apresentou mais variação nos níveis de raciocínio em questões de cálculo.
- Modelos avançados (como GPT4.5 Preview): mantêm desempenho consistente independentemente do framework, indicando menor dependência do estilo de prompting.
5. Conclusões
- A estrutura dos prompts afeta diretamente o desempenho dos modelos, principalmente em questões que exigem raciocínio lógico ou cálculo.
- Questões mais simples são resolvidas corretamente mesmo com prompting direto.
- O framework de Greg Brockman é preferível para tarefas que exigem detalhamento do raciocínio e explicações passo a passo.
- O GPT Wizard by RDD é mais eficaz em cenários profissionais que envolvam interpretação de legislação e normas contábeis/fiscais.
- Modelos como GPT4.5 Preview se destacam pela precisão e estabilidade, mesmo com diferentes estilos de prompting.
Recomendação Final
Para aplicações profissionais:
- Utilize frameworks baseados em raciocínio (como Greg Brockman) em tarefas que envolvem cálculos e análises contábeis aprofundadas.
- Prefira o framework GPT Wizard by RDD em atendimentos normativos, consultoria fiscal e análise de compliance contábil.
A escolha do framework deve considerar o tipo de tarefa, a complexidade da questão e a necessidade de explicação ou objetividade na resposta. O uso inteligente de prompting pode potencializar significativamente o desempenho dos modelos de IA em contextos técnicos.
Quadro Comparativo de Resultados por Modelo e Framework
Modelo | Framework | Questão 38 | Questão 41 | Questão 42 |
---|---|---|---|---|
GPT4o mini | Greg Brockman | Errado (respondeu alternativa D) | Correto | Correto |
GPT Wizard by RDD | Errado (respondeu alternativa D) | Correto | Correto | |
GPT4o | Greg Brockman | Errado (respondeu alternativa D) | Correto | Correto |
GPT Wizard by RDD | Errado (respondeu alternativa D) | Correto | Correto | |
GPT4.5 Preview | Greg Brockman | Correto | Correto | Correto |
GPT Wizard by RDD | Correto | Correto | Correto | |
O3-mini | Greg Brockman | Correto (apenas em High Reasoning) | Correto | Correto |
GPT Wizard by RDD | Errado (errou em todos os níveis) | Correto | Correto | |
O1 | Greg Brockman | Correto (High, Medium e Low Reasoning) | Correto | Correto |
GPT Wizard by RDD | Correto (apenas em High Reasoning) | Correto | Correto |
Deixe um comentário