Ir para RDD10+

Estudo Comparativo de Frameworks de Prompts e Modelos de IA no Exame de Suficiência do CFC 2024

A crescente integração da Inteligência Artificial no ambiente profissional contábil tem impulsionado a necessidade de avaliar sua eficácia em tarefas técnicas e decisórias. Dentre essas aplicações, destaca-se o uso de modelos de linguagem para resolver questões relacionadas a normas, cálculos financeiros e interpretação contábil. Este estudo é particularmente relevante porque analisa, de forma comparativa, o desempenho de diferentes modelos de IA frente a questões do Exame de Suficiência do CFC — uma avaliação que exige domínio técnico e interpretativo. Ao investigar como distintos frameworks de prompts influenciam a precisão das respostas, o estudo contribui diretamente para o aprimoramento do uso de IA em contextos profissionais, educacionais e de consultoria especializada na área contábil e fiscal.

1. Introdução

Este relatório apresenta um estudo comparativo sobre a assertividade de diferentes modelos de Inteligência Artificial (IA), aplicados a questões do Exame de Suficiência 2024 do Conselho Federal de Contabilidade (CFC), utilizando dois frameworks distintos de prompts. O objetivo é analisar como a estruturação dos prompts influencia o desempenho dos modelos em tarefas relacionadas à contabilidade.

A relevância deste estudo está na aplicação prática dos modelos de IA em ambientes contábeis e fiscais, onde podem apoiar profissionais na resolução de problemas técnicos com maior agilidade, precisão e consistência.

2. Metodologia

2.1 Modelos Avaliados

  • GPT4o mini
  • GPT4o
  • GPT4.5 Preview
  • O3-mini
  • O1

2.2 Frameworks de Prompts

Framework de Raciocínio de Greg Brockman: Estimula o modelo a apresentar seu raciocínio passo a passo (Chain-of-Thought), favorecendo a resolução de problemas complexos que exigem lógica estruturada, como cálculos e análises detalhadas. É útil em contextos que exigem explicitação do pensamento.

Framework GPT Wizard by RDD: Criado para elaborar prompts voltados a GPTs e agentes consultivos que respondem sobre legislação e normas contábeis/fiscais. Foca em respostas objetivas, normativas e juridicamente fundamentadas, com clareza e precisão interpretativa.

2.3 Configuração de Teste

  • Temperatura: 0,10
  • TOP P: 0,10

Esses valores foram definidos para minimizar a aleatoriedade nas respostas, maximizando a previsibilidade e reprodutibilidade dos resultados. Tais configurações são recomendadas para aplicações que exigem consistência e precisão técnica.Para modelos com raciocínio explícito, os parâmetros não foram ajustados.

2.4 Questões Avaliadas

Foram utilizadas três questões da prova tipo 1 do Exame do CFC 2024:

  • Questão 38: Cálculo do ponto de equilíbrio financeiro
  • Questão 41: Identificação do valor do custo perdido
  • Questão 42: Determinação do ciclo financeiro

Essas questões representam níveis variados de complexidade, permitindo testar os modelos em contextos distintos de interpretação e cálculo contábil.

3. Resultados

3.1 Questão 38 – Ponto de Equilíbrio

  • Resposta correta oficial: alternativa C
  • Esta questão exigiu dos modelos a correta identificação de custos fixos e variáveis, bem como a aplicação da fórmula de ponto de equilíbrio, demandando raciocínio matemático estruturado.
  • GPT4o mini e GPT4o: erraram em ambos os frameworks, optando por D.
  • GPT4.5 Preview: acertou consistentemente.
  • O3-mini: acertou apenas com o framework de Greg Brockman (High Reasoning).
  • O1: foi o mais consistente, acertando nos três níveis com Greg Brockman; no GPT Wizard by RDD, acertou apenas em High Reasoning.

3.2 Questão 41 – Custo Perdido

  • Resposta correta oficial: alternativa B
  • Todos os modelos acertaram essa questão, independentemente do framework e do nível de raciocínio, demonstrando baixa complexidade e alta clareza interpretativa.

3.3 Questão 42 – Ciclo Financeiro

  • Resposta correta oficial: alternativa A
  • Também foi resolvida corretamente por todos os modelos em ambos os frameworks, reforçando que questões diretas e conceituais são menos afetadas pela variação de prompt.

4. Análise Comparativa entre Frameworks

  • Greg Brockman: melhor desempenho em questões complexas, especialmente quando os modelos precisam detalhar raciocínios intermediários. Foi crucial para acertos consistentes na Questão 38.
  • GPT Wizard by RDD: mais adequado para questões normativas e de aplicação direta de regras contábeis e fiscais. Apresentou mais variação nos níveis de raciocínio em questões de cálculo.
  • Modelos avançados (como GPT4.5 Preview): mantêm desempenho consistente independentemente do framework, indicando menor dependência do estilo de prompting.

5. Conclusões

  1. A estrutura dos prompts afeta diretamente o desempenho dos modelos, principalmente em questões que exigem raciocínio lógico ou cálculo.
  2. Questões mais simples são resolvidas corretamente mesmo com prompting direto.
  3. O framework de Greg Brockman é preferível para tarefas que exigem detalhamento do raciocínio e explicações passo a passo.
  4. O GPT Wizard by RDD é mais eficaz em cenários profissionais que envolvam interpretação de legislação e normas contábeis/fiscais.
  5. Modelos como GPT4.5 Preview se destacam pela precisão e estabilidade, mesmo com diferentes estilos de prompting.

Recomendação Final

Para aplicações profissionais:

  • Utilize frameworks baseados em raciocínio (como Greg Brockman) em tarefas que envolvem cálculos e análises contábeis aprofundadas.
  • Prefira o framework GPT Wizard by RDD em atendimentos normativos, consultoria fiscal e análise de compliance contábil.

A escolha do framework deve considerar o tipo de tarefa, a complexidade da questão e a necessidade de explicação ou objetividade na resposta. O uso inteligente de prompting pode potencializar significativamente o desempenho dos modelos de IA em contextos técnicos.

Quadro Comparativo de Resultados por Modelo e Framework

ModeloFrameworkQuestão 38Questão 41Questão 42
GPT4o miniGreg BrockmanErrado (respondeu alternativa D)CorretoCorreto
GPT Wizard by RDDErrado (respondeu alternativa D)CorretoCorreto
GPT4oGreg BrockmanErrado (respondeu alternativa D)CorretoCorreto
GPT Wizard by RDDErrado (respondeu alternativa D)CorretoCorreto
GPT4.5 PreviewGreg BrockmanCorretoCorretoCorreto
GPT Wizard by RDDCorretoCorretoCorreto
O3-miniGreg BrockmanCorreto (apenas em High Reasoning)CorretoCorreto
GPT Wizard by RDDErrado (errou em todos os níveis)CorretoCorreto
O1Greg BrockmanCorreto (High, Medium e Low Reasoning)CorretoCorreto
GPT Wizard by RDDCorreto (apenas em High Reasoning)CorretoCorreto

Publicado

em

,

por

Tags:

Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *