首頁 / 部落格 / TaiLexi AI 於 2024 年律師考試表現超越 99.98% 考生

TaiLexi AI 於 2024 年律師考試表現超越 99.98% 考生

2025-05-10TaiLexi AI 研究團隊

TaiLexi AI 不僅在 RAG 架構下達成優異的召回率，更於 2024 年司律一試中取得 504 分的成績，表現超越 99.98% 的考生，位列全體考生中的前 0.02%。相較之下，我們同步測試的最新通用模型 ChatGPT-4o 雖亦達通過門檻，但總分僅為 366 分，顯著低於 TaiLexi AI，顯示專業化模型TaiLexi AI在台灣法律上的應用具備壓倒性優勢。

TaiLexi AI - 2024司律國考一試.xlsx
Chatgpt4o - 2024司律國考一試.xlsx

摘要

本研究旨在評估使用檢索增強生成（Retrieval-Augmented Generation, RAG）架構之台灣法律專用模型──TaiLexi AI，在台灣2024司律一試中的答題表現，並與通用大模型 ChatGPT-4o 在同一試題之成績進行比較。研究採用 two-stage retrieval，並結合台灣法規、大法官解釋及自1996年以來之司法判決書作為知識庫。實驗結果顯示，TaiLexi AI 於四大法域之總成績 504 分（滿分 600），答對 252 題、答錯 48 題，正確率 84%，位居全體 10,232 名考生中前 0.02%；而 ChatGPT-4o 總成績 366 分（正確率 61%），位居前 26.14%，顯示專業化RAG模型在台灣法律應用具有顯著優勢。

關鍵字

TaiLexi AI；ChatGPT-4o；檢索增強生成（RAG）

1. 引言

隨著大規模語言模型（Large Language Models, LLM）於自然語言理解與生成領域取得突破，如何在專業領域（如法律）中保證準確性與可追溯性，成為學界與產業界的核心挑戰之一。傳統純生成式模型雖具備靈活性，卻易產生「幻覺」（hallucination）；而單靠檢索系統又難以進行精細之語意推理。本研究選用 RAG 架構，將專業檢索與 LLM 結合，探索其於台灣律師一試單選題答題之應用與表現，並進一步與未經台灣法律微調之通用模型 ChatGPT-4o 成績進行對比。

2. 研究方法

2.1 模型架構

研究模型：TaiLexi AI。結合檢索增強生成（RAG）架構，運用專家模型（two-stage retrieval）與 TaiLexi AI 的深度思考模型。在答題過程中，模型會先檢索法律知識庫中的相關資料，並將檢索結果與試題一併輸入大型語言模型，以提升答案的準確性與可驗證性。
對照模型：ChatGPT-4o。直接使用原始模型的 API 回答考題，未額外搭配法律檢索機制。

2.2 知識庫建置

法條範圍：涵蓋現行有效之台灣法律條文。
大法官解釋：收錄歷年釋字及其內容。
判決書資料：自1996年至2024年，自司法院公開資料庫擷取之判決書，經演算法建立全文索引。

2.3 提示詞設計

TaiLexi AI：提示詞設定為「你正在參加台灣律師考試，題型為單選題，必須且只能選擇一個答案」
ChatGPT-4o：提示詞設定為「你正在參加台灣律師考試，題型為單選題，必須且只能選擇一個答案」

3. 實驗結果

表1 TaiLexi AI 在 2024 年律師一試各法域之答題結果

法域分類	答對題數	答錯題數	正確率	得分
刑法、刑事訴訟法、法律倫理	66	9	88%	132
憲法、行政法、國際公法、國際私法	67	8	89%	134
民法、民事訴訟法	62	18	78%	124
公司法、保險法、票據法、證券交易法、強制執行法、法學英文	57	13	81%	114
總合	252	48	84%	504

根據台灣考選部資料，2024 年共有 10,232 名考生全程到考，僅有 2 人得分 ≥ 504 分，占比 0.02%。

表2 ChatGPT-4o 在 2024 年律師一試各法域之答題結果

法域分類	答對題數	答錯題數	正確率	得分
刑法、刑事訴訟法、法律倫理	48	27	64%	96
憲法、行政法、國際公法、國際私法	49	26	65%	98
民法、民事訴訟法	46	34	58%	92
公司法、保險法、票據法、證券交易法、強制執行法、法學英文	40	30	57%	80
總合	183	117	61%	366

根據考選部資料，2024 年同考場共 10,232 名考生，累計 2 人得分 ≥ 366 分，占比 26.14%，顯示 ChatGPT-4o 以未經專業化的通用模型，其成績位居前 26.14%。

4. 討論

ChatGPT 模型更新概覽：GPT-4 與 GPT-4o 的差異

根據 Mark Shope 教授於 SSRN 發表之研究〈GPT Performance on the Bar Exam in Taiwan〉，GPT-4（ChatGPT Plus）於 2022 年台灣律師考試第一試中取得 342 分，僅位居考生前 50.86%，未達當年進入第二試之門檻 372 分，因此無法晉級。該研究指出，GPT-4 雖在法律倫理與國際公法等科表現良好，惟於刑法、證券交易法等科仍顯不足，顯示當時的通用大型語言模型尚無法勝任高階法律考試。

然而，2024 年最新推出之 GPT-4o 模型，在未進行法律領域微調的情況下，於本研究中針對台灣 2024 年度的律師考試第一試進行模擬測驗，總分達 366 分，已超過當年一試及格標準 354 分，顯示 GPT 模型在兩年間已有突破。GPT-4o 的正確率為 61%，雖仍不及專業化模型 TaiLexi AI 的 84%，但已具備通過國家級專業考試的基本能力。

此一發展具備指標性意涵，顯示通用語言模型於法律應用領域之實用性正持續提升。相較於 GPT-4，GPT-4o 在題意解析與法條適用等層面呈現顯著進步。倘若進一步整合法規檢索機制與本地判決資料庫等 RAG 技術，其應用潛能可望大幅擴展。綜合而言，通用語言模型與檢索增強生成架構之融合，未來可能成為人工智慧輔助法律實務之主流技術路徑

專業化模型優勢：TaiLexi AI 藉由 RAG 機制結合法律知識庫，其整體正確率達 84%，遠高於 ChatGPT-4o 的 61%，並在憲法與刑事領域達近九成，顯示專業化檢索增強對於台灣法律應用之重要性。
通用模型表現：ChatGPT-4o 雖具 61% 的正確率，但因缺乏對台灣法律資料的充分訓練，其錯誤多集中於法條之複雜解釋與本地案例的適用。

5. 結論與未來工作

本研究證實，採用 RAG 架構之專業法律模型 TaiLexi AI，能在台灣律師高考單選題中取得相當於頂尖人類考生之成績，且明顯優於通用模型 ChatGPT-4o。未來可持續優化知識庫質量，並探索高階法律任務之應用。

參考資料來源

考選部，〈2024年律師高等考試及格分數統計〉
全國法規資料庫
政府資料開放平臺
GPT Performance on the Bar Exam in Taiwan (GPT在台灣專門職業及技術人員高等考試律師考試中的表現) by Mark Shope :: SSRN