首頁 / 部落格 / TaiLexi AI 於 2024 年律師考試表現超越 99.98% 考生

TaiLexi AI 於 2024 年律師考試表現超越 99.98% 考生

TaiLexi AI 研究團隊

TaiLexi AI 不僅在 RAG 架構下達成優異的召回率,更於 2024 年司律一試中取得 504 分的成績,表現超越 99.98% 的考生,位列全體考生中的前 0.02%。相較之下,我們同步測試的最新通用模型 ChatGPT-4o 雖亦達通過門檻,但總分僅為 366 分,顯著低於 TaiLexi AI,顯示專業化模型TaiLexi AI在台灣法律上的應用具備壓倒性優勢。

摘要

本研究旨在評估使用檢索增強生成(Retrieval-Augmented Generation, RAG)架構之台灣法律專用模型──TaiLexi AI,在台灣2024司律一試中的答題表現,並與通用大模型 ChatGPT-4o 在同一試題之成績進行比較。研究採用 two-stage retrieval,並結合台灣法規、大法官解釋及自1996年以來之司法判決書作為知識庫。實驗結果顯示,TaiLexi AI 於四大法域之總成績 504 分(滿分 600),答對 252 題、答錯 48 題,正確率 84%,位居全體 10,232 名考生中前 0.02%;而 ChatGPT-4o 總成績 366 分(正確率 61%),位居前 26.14%,顯示專業化RAG模型在台灣法律應用具有顯著優勢。

關鍵字

TaiLexi AI;ChatGPT-4o;檢索增強生成(RAG)

1. 引言

隨著大規模語言模型(Large Language Models, LLM)於自然語言理解與生成領域取得突破,如何在專業領域(如法律)中保證準確性與可追溯性,成為學界與產業界的核心挑戰之一。傳統純生成式模型雖具備靈活性,卻易產生「幻覺」(hallucination);而單靠檢索系統又難以進行精細之語意推理。本研究選用 RAG 架構,將專業檢索與 LLM 結合,探索其於台灣律師一試單選題答題之應用與表現,並進一步與未經台灣法律微調之通用模型 ChatGPT-4o 成績進行對比。

2. 研究方法

2.1 模型架構

  • 研究模型:TaiLexi AI。結合檢索增強生成(RAG)架構,運用專家模型(two-stage retrieval)與 TaiLexi AI 的深度思考模型。在答題過程中,模型會先檢索法律知識庫中的相關資料,並將檢索結果與試題一併輸入大型語言模型,以提升答案的準確性與可驗證性。
  • 對照模型:ChatGPT-4o。直接使用原始模型的 API 回答考題,未額外搭配法律檢索機制。

2.2 知識庫建置

  • 法條範圍:涵蓋現行有效之台灣法律條文。
  • 大法官解釋:收錄歷年釋字及其內容。
  • 判決書資料:自1996年至2024年,自司法院公開資料庫擷取之判決書,經演算法建立全文索引。

2.3 提示詞設計

  • TaiLexi AI:提示詞設定為「你正在參加台灣律師考試,題型為單選題,必須且只能選擇一個答案」
  • ChatGPT-4o:提示詞設定為「你正在參加台灣律師考試,題型為單選題,必須且只能選擇一個答案」

3. 實驗結果

表1 TaiLexi AI 在 2024 年律師一試各法域之答題結果

法域分類 答對題數 答錯題數 正確率 得分
刑法、刑事訴訟法、法律倫理 66 9 88% 132
憲法、行政法、國際公法、國際私法 67 8 89% 134
民法、民事訴訟法 62 18 78% 124
公司法、保險法、票據法、證券交易法、強制執行法、法學英文 57 13 81% 114
總合 252 48 84% 504

根據台灣考選部資料,2024 年共有 10,232 名考生全程到考,僅有 2 人得分 ≥ 504 分,占比 0.02%。

表2 ChatGPT-4o 在 2024 年律師一試各法域之答題結果

法域分類 答對題數 答錯題數 正確率 得分
刑法、刑事訴訟法、法律倫理 48 27 64% 96
憲法、行政法、國際公法、國際私法 49 26 65% 98
民法、民事訴訟法 46 34 58% 92
公司法、保險法、票據法、證券交易法、強制執行法、法學英文 40 30 57% 80
總合 183 117 61% 366

根據考選部資料,2024 年同考場共 10,232 名考生,累計 2 人得分 ≥ 366 分,占比 26.14%,顯示 ChatGPT-4o 以未經專業化的通用模型,其成績位居前 26.14%。

4. 討論

ChatGPT 模型更新概覽:GPT-4 與 GPT-4o 的差異

根據 Mark Shope 教授於 SSRN 發表之研究〈GPT Performance on the Bar Exam in Taiwan〉,GPT-4(ChatGPT Plus)於 2022 年台灣律師考試第一試中取得 342 分,僅位居考生前 50.86%,未達當年進入第二試之門檻 372 分,因此無法晉級。該研究指出,GPT-4 雖在法律倫理與國際公法等科表現良好,惟於刑法、證券交易法等科仍顯不足,顯示當時的通用大型語言模型尚無法勝任高階法律考試。

然而,2024 年最新推出之 GPT-4o 模型,在未進行法律領域微調的情況下,於本研究中針對台灣 2024 年度的律師考試第一試進行模擬測驗,總分達 366 分,已超過當年一試及格標準 354 分,顯示 GPT 模型在兩年間已有突破。GPT-4o 的正確率為 61%,雖仍不及專業化模型 TaiLexi AI 的 84%,但已具備通過國家級專業考試的基本能力。

此一發展具備指標性意涵,顯示通用語言模型於法律應用領域之實用性正持續提升。相較於 GPT-4,GPT-4o 在題意解析與法條適用等層面呈現顯著進步。倘若進一步整合法規檢索機制與本地判決資料庫等 RAG 技術,其應用潛能可望大幅擴展。綜合而言,通用語言模型與檢索增強生成架構之融合,未來可能成為人工智慧輔助法律實務之主流技術路徑

  • 專業化模型優勢:TaiLexi AI 藉由 RAG 機制結合法律知識庫,其整體正確率達 84%,遠高於 ChatGPT-4o 的 61%,並在憲法與刑事領域達近九成,顯示專業化檢索增強對於台灣法律應用之重要性。
  • 通用模型表現:ChatGPT-4o 雖具 61% 的正確率,但因缺乏對台灣法律資料的充分訓練,其錯誤多集中於法條之複雜解釋與本地案例的適用。

5. 結論與未來工作

本研究證實,採用 RAG 架構之專業法律模型 TaiLexi AI,能在台灣律師高考單選題中取得相當於頂尖人類考生之成績,且明顯優於通用模型 ChatGPT-4o。未來可持續優化知識庫質量,並探索高階法律任務之應用。

參考資料來源

  1. 考選部,〈2024年律師高等考試及格分數統計〉
  2. 全國法規資料庫
  3. 政府資料開放平臺
  4. GPT Performance on the Bar Exam in Taiwan (GPT在台灣專門職業及技術人員高等考試律師考試中的表現) by Mark Shope :: SSRN