TaiLexi AI 於 2024 年律師考試表現超越 99.98% 考生
TaiLexi AI 不僅在 RAG 架構下達成優異的召回率,更於 2024 年司律一試中取得 504 分的成績,表現超越 99.98% 的考生,位列全體考生中的前 0.02%。相較之下,我們同步測試的最新通用模型 ChatGPT-4o 雖亦達通過門檻,但總分僅為 366 分,顯著低於 TaiLexi AI,顯示專業化模型TaiLexi AI在台灣法律上的應用具備壓倒性優勢。
摘要
本研究旨在評估使用檢索增強生成(Retrieval-Augmented Generation, RAG)架構之台灣法律專用模型──TaiLexi AI,在台灣2024司律一試中的答題表現,並與通用大模型 ChatGPT-4o 在同一試題之成績進行比較。研究採用 two-stage retrieval,並結合台灣法規、大法官解釋及自1996年以來之司法判決書作為知識庫。實驗結果顯示,TaiLexi AI 於四大法域之總成績 504 分(滿分 600),答對 252 題、答錯 48 題,正確率 84%,位居全體 10,232 名考生中前 0.02%;而 ChatGPT-4o 總成績 366 分(正確率 61%),位居前 26.14%,顯示專業化RAG模型在台灣法律應用具有顯著優勢。
關鍵字
TaiLexi AI;ChatGPT-4o;檢索增強生成(RAG)
1. 引言
隨著大規模語言模型(Large Language Models, LLM)於自然語言理解與生成領域取得突破,如何在專業領域(如法律)中保證準確性與可追溯性,成為學界與產業界的核心挑戰之一。傳統純生成式模型雖具備靈活性,卻易產生「幻覺」(hallucination);而單靠檢索系統又難以進行精細之語意推理。本研究選用 RAG 架構,將專業檢索與 LLM 結合,探索其於台灣律師一試單選題答題之應用與表現,並進一步與未經台灣法律微調之通用模型 ChatGPT-4o 成績進行對比。
2. 研究方法
2.1 模型架構
- 研究模型:TaiLexi AI。結合檢索增強生成(RAG)架構,運用專家模型(two-stage retrieval)與 TaiLexi AI 的深度思考模型。在答題過程中,模型會先檢索法律知識庫中的相關資料,並將檢索結果與試題一併輸入大型語言模型,以提升答案的準確性與可驗證性。
- 對照模型:ChatGPT-4o。直接使用原始模型的 API 回答考題,未額外搭配法律檢索機制。
2.2 知識庫建置
- 法條範圍:涵蓋現行有效之台灣法律條文。
- 大法官解釋:收錄歷年釋字及其內容。
- 判決書資料:自1996年至2024年,自司法院公開資料庫擷取之判決書,經演算法建立全文索引。
2.3 提示詞設計
- TaiLexi AI:提示詞設定為「你正在參加台灣律師考試,題型為單選題,必須且只能選擇一個答案」
- ChatGPT-4o:提示詞設定為「你正在參加台灣律師考試,題型為單選題,必須且只能選擇一個答案」
3. 實驗結果
表1 TaiLexi AI 在 2024 年律師一試各法域之答題結果
法域分類 | 答對題數 | 答錯題數 | 正確率 | 得分 |
---|---|---|---|---|
刑法、刑事訴訟法、法律倫理 | 66 | 9 | 88% | 132 |
憲法、行政法、國際公法、國際私法 | 67 | 8 | 89% | 134 |
民法、民事訴訟法 | 62 | 18 | 78% | 124 |
公司法、保險法、票據法、證券交易法、強制執行法、法學英文 | 57 | 13 | 81% | 114 |
總合 | 252 | 48 | 84% | 504 |
根據台灣考選部資料,2024 年共有 10,232 名考生全程到考,僅有 2 人得分 ≥ 504 分,占比 0.02%。
表2 ChatGPT-4o 在 2024 年律師一試各法域之答題結果
法域分類 | 答對題數 | 答錯題數 | 正確率 | 得分 |
---|---|---|---|---|
刑法、刑事訴訟法、法律倫理 | 48 | 27 | 64% | 96 |
憲法、行政法、國際公法、國際私法 | 49 | 26 | 65% | 98 |
民法、民事訴訟法 | 46 | 34 | 58% | 92 |
公司法、保險法、票據法、證券交易法、強制執行法、法學英文 | 40 | 30 | 57% | 80 |
總合 | 183 | 117 | 61% | 366 |
根據考選部資料,2024 年同考場共 10,232 名考生,累計 2 人得分 ≥ 366 分,占比 26.14%,顯示 ChatGPT-4o 以未經專業化的通用模型,其成績位居前 26.14%。
4. 討論
ChatGPT 模型更新概覽:GPT-4 與 GPT-4o 的差異
根據 Mark Shope 教授於 SSRN 發表之研究〈GPT Performance on the Bar Exam in Taiwan〉,GPT-4(ChatGPT Plus)於 2022 年台灣律師考試第一試中取得 342 分,僅位居考生前 50.86%,未達當年進入第二試之門檻 372 分,因此無法晉級。該研究指出,GPT-4 雖在法律倫理與國際公法等科表現良好,惟於刑法、證券交易法等科仍顯不足,顯示當時的通用大型語言模型尚無法勝任高階法律考試。
然而,2024 年最新推出之 GPT-4o 模型,在未進行法律領域微調的情況下,於本研究中針對台灣 2024 年度的律師考試第一試進行模擬測驗,總分達 366 分,已超過當年一試及格標準 354 分,顯示 GPT 模型在兩年間已有突破。GPT-4o 的正確率為 61%,雖仍不及專業化模型 TaiLexi AI 的 84%,但已具備通過國家級專業考試的基本能力。
此一發展具備指標性意涵,顯示通用語言模型於法律應用領域之實用性正持續提升。相較於 GPT-4,GPT-4o 在題意解析與法條適用等層面呈現顯著進步。倘若進一步整合法規檢索機制與本地判決資料庫等 RAG 技術,其應用潛能可望大幅擴展。綜合而言,通用語言模型與檢索增強生成架構之融合,未來可能成為人工智慧輔助法律實務之主流技術路徑
- 專業化模型優勢:TaiLexi AI 藉由 RAG 機制結合法律知識庫,其整體正確率達 84%,遠高於 ChatGPT-4o 的 61%,並在憲法與刑事領域達近九成,顯示專業化檢索增強對於台灣法律應用之重要性。
- 通用模型表現:ChatGPT-4o 雖具 61% 的正確率,但因缺乏對台灣法律資料的充分訓練,其錯誤多集中於法條之複雜解釋與本地案例的適用。
5. 結論與未來工作
本研究證實,採用 RAG 架構之專業法律模型 TaiLexi AI,能在台灣律師高考單選題中取得相當於頂尖人類考生之成績,且明顯優於通用模型 ChatGPT-4o。未來可持續優化知識庫質量,並探索高階法律任務之應用。
參考資料來源
- 考選部,〈2024年律師高等考試及格分數統計〉
- 全國法規資料庫
- 政府資料開放平臺
- GPT Performance on the Bar Exam in Taiwan (GPT在台灣專門職業及技術人員高等考試律師考試中的表現) by Mark Shope :: SSRN