如何把最需要的判決放到最前面-揭密 Lawsnote 的關聯度排序

每個律師查判決的時候一定有過這種經驗：下了一個連自己都驚嘆的完美關鍵字，找到數量不多不少剛剛好的判決，案由符合，一定就是我需要的這篇判決，滿懷期待的點進去，卻發現…關鍵字只在原告主張出現一次，法院見解隻字未提。

Lawsnote 成立之初，為了找出法律人最花時間的部分，進而徹底解決，我們訪談了超過兩百位的法律人，發現「過濾判決」這件事，佔去了律師們許多的時間。為了節省律師找判決的時間，我們專門為法律人開發了一系列的演算法，並且使用在搜尋引擎的「關聯度排序」上。

因此，如果您在 Lawsnote 上搜尋資料，可以發現除了傳統上判決可以按照時間排序之外，同時也可以選擇「關聯度排序」，透過關聯度排序，系統可以有效協助您找到您最可能需要的判決。

根據我們的統計，在 Lawsnote 上，超過一半的使用者可以在第 1 頁，也就是前 10 筆就找到自己需要的資料，或是確定關鍵字必須更換。並且幾乎不會發生關鍵字只出現一次的這種窘境。

關聯度演算法是個非常隱性的功能，但 Lawsnote 團隊認為這是搜尋資料中最重要的事情，因此我們要超過一半的時間都在研發和改善這個功能，只希望能讓各位法律人能節省更多搜尋的時間。

但我們沒有意料到的是，有許多人因為這樣的關聯度排序不符合傳統日期排序的使用習慣，導致很多使用者來問我們資料是怎麼排序的？為什麼和其他的資料庫不一樣？也許您在使用 Lawsnote 的時候也有相同的困惑。

這篇說明就是協助您在使用 Lawsnote 的時候，能更清楚了解我們演算法的運作方式，藉以能更信任我們排序的資料。

用一個比較容易理解的說法，Lawsnote 的關聯度排序，主要依據兩個方式算出來的分數綜合排序，一個是動態運算分數，一個是靜態運算分數。用比較法律的說法，就是相對分數和絕對分數。

相對分數

相對分數參考了幾種參數，比較具有代表性的是「詞頻」和「詞稀有度」。

「詞頻」指的是關鍵字出現的次數，舉例而言，假設系統設定每符合一次關鍵字就得1分，當我搜尋「殺人」，那麼「殺人」這個關鍵字出現 10 次的判決就會得 10 分，他的排序就會在「殺人」只出現 5 次的判決前面。

「詞稀有度」指的是比較稀有的詞得分會比較高。

舉例來說，當我用「離婚」、「不堪同居之虐待」當關鍵字搜尋，因為「不堪同居之虐待」是比「離婚」更稀有的詞彙，因此得分會比較高。假設「離婚」出現 1 次得 1 分，「不堪同居之虐待」出現 1 次得 2 分。

那麼一個出現兩次「不堪同居之虐待」一次「離婚」的判決總共得到5分，會比出現兩次「離婚」一次「不堪同居之虐待」的 4 分判決排在更前面。

%e9%9b%a2%e5%a9%9a

除了這兩個參數外，另外還包含了許多比較複雜的參數，例如關鍵字的性質、關鍵字出現的位置等等，但基本的概念是一樣的。相對分數指的是根據使用者輸入的關鍵字產生的計算分數。

絕對分數則和關鍵字沒有關係，單純和資料本身的特質有關係。

舉例而言，判例、具高價值裁判、最高法院判決、高等法院判決、地方法院判決，我們可以依序給 5、4、3、2、1 分，這樣在相同的條件底下，判例會被排在最前面。

而Lawsnote的關聯度排序就是依照上面各種不同的參數，總共計算出一個分數，最後依照分數將裁判結果排序出來。

實際上，我們總共考慮了十幾種法律人在搜尋文件時會考慮到的參數，而且分數的計算方式也遠比例子中要複雜許多。

但概念上就與上面的敘述一樣，透過各式各樣的參數，去把大家最需要的資料算出分數後，排序在最前面，以節省法律人篩選資料的時間。

在未來，我們仍會持續的優化搜尋關聯度的演算法，導入學習分數，透過所有人的搜尋結果，讓最適合的判決更快的呈現在您的面前。

我們希望您能了解我們花了許多時間在把您最需要的資料更快被找到，也希望您能理解這個機制是怎麼運作的。當然我們最希望的，是我們的努力，能真的有效的節省您的時間。

—————————————————-

Lawsnote | 讓法律更有效率

分享這篇文章