首頁 / 部落格 / 2025 LLM 法律實測:哪個國際大型語言模型最懂台灣法律?Claude 3.7 勇奪第一,OpenAI 慘輸?

2025 LLM 法律實測:哪個國際大型語言模型最懂台灣法律?Claude 3.7 勇奪第一,OpenAI 慘輸?

TaiLexi AI 研究團隊

很多人會好奇:「哪一款國際大型語言模型LLM在台灣法律領域表現最好?」為了解答這個問題,我們實際測試了多家主流模型,與最近期發布的模型,以下是整理與觀察結果。測試顯示,Anthropic Claude 3.7以驚人的72.0%正確率領先群雄,而Google Gemini Flash以輕量級模型之姿也達到68.7%的優異成績,OpenAI的模型則表現令人失望。

關鍵字

法律AI模型;Claude 3.7;Gemini Flash;LLM比較;台灣法律應用

各大模型表現一覽

我們針對主要國際大型語言模型進行了台灣法律題目測試,結果顯示出明顯的差異:

2024司律一試各模型答題正確率比較表

表格:2024年司律一試各大語言模型答題正確率比較

Claude 3.7:繁體中文法律的意外霸主

本次測試中最讓人驚艷的是 Anthropic Claude 3.7 達到了72.0%的正確率,遠超其他國際模型。這一結果令人感到意外,因為Claude系列模型以英文為主要訓練語言,在歐美法律界已有良好口碑,但沒想到在台灣法考的繁體中文環境中也能保持領先地位。

根據我們的分析,Claude 3.7在處理複雜法律推理時展現出了優異的能力,特別是在需要精確理解繁體中文法律術語與概念的情境下。這可能得益於其訓練數據中包含了大量高品質的多語言法律文本,以及其強大的跨語言推理能力。

Gemini Flash:輕量級的黑馬

Google Gemini Flash 以小參數版本模型的身份,卻達到了68.7%的高分,這一成績超越了許多參數量更大的模型,確實令人刮目相看。這顯示出Google在模型優化方面的技術實力,能夠在較小的計算資源下仍保持高水準的表現。

Gemini Flash在法律術語辨識和法條解釋方面表現突出,這對於需要即時回應的法律諮詢場景特別有價值。其較小的模型尺寸意味著更低的延遲和運行成本,為實務應用提供了更多可能性。

OpenAI模型:表現令人失望

我們原本計劃測試OpenAI的o3模型,但由於需要申請專屬API,流程繁複因此未能納入本次測試。轉而使用GPT-4 Mini High(正確率60.7%)進行測試,結果發現其表現甚至低於GPT-4o(正確率61.0%),反映出OpenAI的行銷與實際效能之間存在一定落差。

值得注意的是,雖然在法律專業領域表現不盡理想,但OpenAI模型在圖像生成等方面仍具有優勢,其能夠生成吉力卜風格圖像的功能讓它在消費者市場保持了高人氣。

其他模型表現

Grok 3 作為xAI的旗艦大參數模型,正確率僅約62%,結果略顯失望。這可能與其訓練數據中缺乏足夠的中文法律文本有關。

LLaMA 4系列中,Behemoth巨參數模型尚未公開,因此無法納入測試。而LLaMA 4 Maverick(正確率:62.3%)在處理繁體中文法律題目時,出現了「以英文邏輯思考並作答」的現象,反映出其訓練資料仍以歐美英文為主。

專業法律模型的優勢

我們也將自家RAG法律AI模型TaiLexi AI(正確率84%)納入比較。作為專為台灣法律條文與判決資料設計的模型,TaiLexi在處理本地法律問題時展現出明顯優勢。專業化的法律模型在理解本土法規體系、判例引用和法律推理方面,往往能提供更符合本土法律文化的解答。

這一現象並非台灣獨有。在全球範圍內,專業領域的垂直模型正在挑戰通用大模型的地位,特別是在法律、醫療、金融等專業性極強的領域。TaiLexi AI的表現證明,針對特定應用場景優化的中小模型,在實用性上可以媲美甚至超越國際大廠的通用模型。

結論與展望

本次測試結果顯示,在台灣法律應用領域,Anthropic Claude 3.7和Google Gemini Flash表現最為出色。這反映出AI技術發展的新趨勢——模型的專業性和優化程度可能比純粹的參數規模更為重要。

未來的LLM發展可能會更加注重行業垂直應用和區域文化適應,而非單純追求參數量的增加。我們也期待看到更多針對繁體中文環境優化的模型出現,為台灣的法律科技發展提供更多可能性。

TaiLexi AI團隊將持續追蹤國際模型的發展動態,同時進一步優化自身模型在台灣法律應用場景的表現,為法律專業人士和一般民眾提供更智能、更精準的法律AI服務。

參考資料

  1. TaiLexi AI內部研究資料,2025年5月