Estudo Comparativo de Frameworks de Prompts e Modelos de IA no Exame de Suficiência do CFC 2024

A crescente integração da Inteligência Artificial no ambiente profissional contábil tem impulsionado a necessidade de avaliar sua eficácia em tarefas técnicas e decisórias. Dentre essas aplicações, destaca-se o uso de modelos de linguagem para resolver questões relacionadas a normas, cálculos financeiros e interpretação contábil. Este estudo é particularmente relevante porque analisa, de forma comparativa, o desempenho de diferentes modelos de IA frente a questões do Exame de Suficiência do CFC — uma avaliação que exige domínio técnico e interpretativo. Ao investigar como distintos frameworks de prompts influenciam a precisão das respostas, o estudo contribui diretamente para o aprimoramento do uso de IA em contextos profissionais, educacionais e de consultoria especializada na área contábil e fiscal.

1. Introdução

Este relatório apresenta um estudo comparativo sobre a assertividade de diferentes modelos de Inteligência Artificial (IA), aplicados a questões do Exame de Suficiência 2024 do Conselho Federal de Contabilidade (CFC), utilizando dois frameworks distintos de prompts. O objetivo é analisar como a estruturação dos prompts influencia o desempenho dos modelos em tarefas relacionadas à contabilidade.

A relevância deste estudo está na aplicação prática dos modelos de IA em ambientes contábeis e fiscais, onde podem apoiar profissionais na resolução de problemas técnicos com maior agilidade, precisão e consistência.

2. Metodologia

2.1 Modelos Avaliados

GPT4o mini
GPT4o
GPT4.5 Preview
O3-mini
O1

2.2 Frameworks de Prompts

Framework de Raciocínio de Greg Brockman: Estimula o modelo a apresentar seu raciocínio passo a passo (Chain-of-Thought), favorecendo a resolução de problemas complexos que exigem lógica estruturada, como cálculos e análises detalhadas. É útil em contextos que exigem explicitação do pensamento.

Framework GPT Wizard by RDD: Criado para elaborar prompts voltados a GPTs e agentes consultivos que respondem sobre legislação e normas contábeis/fiscais. Foca em respostas objetivas, normativas e juridicamente fundamentadas, com clareza e precisão interpretativa.

2.3 Configuração de Teste

Temperatura: 0,10
TOP P: 0,10

Esses valores foram definidos para minimizar a aleatoriedade nas respostas, maximizando a previsibilidade e reprodutibilidade dos resultados. Tais configurações são recomendadas para aplicações que exigem consistência e precisão técnica.Para modelos com raciocínio explícito, os parâmetros não foram ajustados.

2.4 Questões Avaliadas

Foram utilizadas três questões da prova tipo 1 do Exame do CFC 2024:

Questão 38: Cálculo do ponto de equilíbrio financeiro
Questão 41: Identificação do valor do custo perdido
Questão 42: Determinação do ciclo financeiro

Essas questões representam níveis variados de complexidade, permitindo testar os modelos em contextos distintos de interpretação e cálculo contábil.

3. Resultados

3.1 Questão 38 – Ponto de Equilíbrio

Resposta correta oficial: alternativa C
Esta questão exigiu dos modelos a correta identificação de custos fixos e variáveis, bem como a aplicação da fórmula de ponto de equilíbrio, demandando raciocínio matemático estruturado.
GPT4o mini e GPT4o: erraram em ambos os frameworks, optando por D.
GPT4.5 Preview: acertou consistentemente.
O3-mini: acertou apenas com o framework de Greg Brockman (High Reasoning).
O1: foi o mais consistente, acertando nos três níveis com Greg Brockman; no GPT Wizard by RDD, acertou apenas em High Reasoning.

3.2 Questão 41 – Custo Perdido

Resposta correta oficial: alternativa B
Todos os modelos acertaram essa questão, independentemente do framework e do nível de raciocínio, demonstrando baixa complexidade e alta clareza interpretativa.

3.3 Questão 42 – Ciclo Financeiro

Resposta correta oficial: alternativa A
Também foi resolvida corretamente por todos os modelos em ambos os frameworks, reforçando que questões diretas e conceituais são menos afetadas pela variação de prompt.

4. Análise Comparativa entre Frameworks

Greg Brockman: melhor desempenho em questões complexas, especialmente quando os modelos precisam detalhar raciocínios intermediários. Foi crucial para acertos consistentes na Questão 38.
GPT Wizard by RDD: mais adequado para questões normativas e de aplicação direta de regras contábeis e fiscais. Apresentou mais variação nos níveis de raciocínio em questões de cálculo.
Modelos avançados (como GPT4.5 Preview): mantêm desempenho consistente independentemente do framework, indicando menor dependência do estilo de prompting.

5. Conclusões

A estrutura dos prompts afeta diretamente o desempenho dos modelos, principalmente em questões que exigem raciocínio lógico ou cálculo.
Questões mais simples são resolvidas corretamente mesmo com prompting direto.
O framework de Greg Brockman é preferível para tarefas que exigem detalhamento do raciocínio e explicações passo a passo.
O GPT Wizard by RDD é mais eficaz em cenários profissionais que envolvam interpretação de legislação e normas contábeis/fiscais.
Modelos como GPT4.5 Preview se destacam pela precisão e estabilidade, mesmo com diferentes estilos de prompting.

Recomendação Final

Para aplicações profissionais:

Utilize frameworks baseados em raciocínio (como Greg Brockman) em tarefas que envolvem cálculos e análises contábeis aprofundadas.
Prefira o framework GPT Wizard by RDD em atendimentos normativos, consultoria fiscal e análise de compliance contábil.

A escolha do framework deve considerar o tipo de tarefa, a complexidade da questão e a necessidade de explicação ou objetividade na resposta. O uso inteligente de prompting pode potencializar significativamente o desempenho dos modelos de IA em contextos técnicos.

Quadro Comparativo de Resultados por Modelo e Framework

Modelo	Framework	Questão 38	Questão 41	Questão 42
GPT4o mini	Greg Brockman	Errado (respondeu alternativa D)	Correto	Correto
	GPT Wizard by RDD	Errado (respondeu alternativa D)	Correto	Correto
GPT4o	Greg Brockman	Errado (respondeu alternativa D)	Correto	Correto
	GPT Wizard by RDD	Errado (respondeu alternativa D)	Correto	Correto
GPT4.5 Preview	Greg Brockman	Correto	Correto	Correto
	GPT Wizard by RDD	Correto	Correto	Correto
O3-mini	Greg Brockman	Correto (apenas em High Reasoning)	Correto	Correto
	GPT Wizard by RDD	Errado (errou em todos os níveis)	Correto	Correto
O1	Greg Brockman	Correto (High, Medium e Low Reasoning)	Correto	Correto
	GPT Wizard by RDD	Correto (apenas em High Reasoning)	Correto	Correto