近日,在數位音樂產業深耕多年的KKBOX,與學術界大數據專家們攜手合作,運用先進的「機器學習」(Machine Learning) 處理「巨量資料」(Big Data),深入瞭解用戶聽歌喜好,推出全新升級的個人化音樂推薦機制「發現」

電影《曼哈頓戀習曲》中,過氣的音樂製作人遇上素人歌手,驚為天人決定幫她錄製專輯。其中一幕,兩人沿街散步,聆聽著彼此手機中的歌單,點出了音樂的品味如何反映出一個人的內心,而分享歌單就像向朋友吐露心情、坦承祕密一樣親暱。

正因為音樂能夠觸動人心卻又各有所好,台灣音樂串流服務龍頭KKBOX,握有1000萬名會員、200萬名付費會員和3000萬首歌,他們最想做的事,就是當使用者耳朵裡的蛔蟲,推薦「你沒聽過,但我猜你會喜歡」的音樂。

以相似群體做為起點,推薦喜歡的音樂

2011年,KKBOX成立資料科學團隊,觀察使用者行為(點擊、聆聽、收藏和在社交網站上追蹤藝人的動態)與收聽音樂曲風的特徵,設計出個人化推薦的模型。

KKBOX積極培養資料科學研發團隊,且在三年前開始,與台灣大學、中央研究院與政治大學的資料科學家密切進行產學合作,共同開發深度學習、巨量資料、推薦系統、情感運算等技術。

目前推出的「發現」機制,主動發掘吻合用戶喜好的音樂並呈現給用戶,也會根據用戶回饋,持續開發與精進。中央研究院楊奕軒教授說:「推薦的基本精神是利用擁有共同經驗、相似興趣喜好的群體的資料,來預測使用者的偏好,讓個別使用者能夠得到有用的資訊。」

個人化推薦模型上線前的3階段驗證:

首先是離線測量,也就是用歷史資料當作考題,讓系統根據使用者在某時段聽的歌,再推薦相關歌曲,再以他接下來聽的歌曲做為參考,評估命中率高低。第二階段是人眼測試,由編輯檢視次分類與推薦系統的準確性。最後一階段是A/B測試,看看系統推薦的歌單有沒有具體增加使用者的點擊率、到訪率或收聽時間。

去年7月,第一階段的推薦系統正式上線。研發工程師Ann Chen說,第一階段以歌手和大類別為主的推薦方式比較受限,一則無法拓展使用者聆聽的音樂種類,限於粗略的類別和單一歌手,也沒辦法辨識使用者的聽歌情境(是通勤還是在運動)。

如今,KKBOX利用「機器學習」的方式區分資料庫中3000萬首歌曲的「次類別」(subgenre)。產品開發中心副總經理林華說,「我們想要依據你本來的喜好做為起點,幫你探索、找到一些你本來沒在聽的音樂。」

次類別的重要性在於,KKBOX有40%的用戶是從類別去找歌,大類別只能確定用戶聽的是爵士,可是爵士底下的小類別(樂派、風格、器樂、歌手、團體),對於有明確偏好的用戶來說差距甚遠。好的音樂分類,可以提高網站專業度和服務品質,也能更清楚歸類使用者的喜好。

「訓練」電腦辨識曲風,滿足耳朵尖的用戶

Ann Chen說,很多音樂的分類法都是按照歷史、文化和地理區域做區分,可是使用者在搜尋的時候,可能對音樂的背景資訊不熟悉,而無法順利找到想聽的音樂。因此,KKBOX想直接用曲子本身的特質來分類,「我們嘗試用音訊特徵去找出曲風的獨特性。」

於是,KKBOX初步以「主類別」結合「音訊特性」(例如曲調、節奏和樂器等)進行分類,大約分出50個次類別;接著由專家(例如音樂製作人)針對這些次類別,挑選出「golden set」(黃金組合),也就是最具代表性的歌曲,訓練電腦辨識各次類別的特徵。

KKBOX的音樂曲風與情境分類已擴充至上百種,滿足重度樂迷的喜好,例如電子、搖滾、嘻哈等,可再細分成House、Trance、Pop Rock、Shoegaze等分支;而在KKBOX流行歌曲中的人氣歌曲多與愛情有關,KKBOX也針對「關於愛」的主題,再分為熱戀、失戀、婚禮、寂寞等,希望幫助用戶找到最貼近心聲的音樂。

同時運用科學與人腦,系統才能愈學愈好

與KKBOX長期合作、擅長電子曲風的知名音樂人DJ Rainbowchild表示,「客座主編除了將曲風細分之外,也扮演著音樂策展人角色,藉由自己擅長的曲風歌單,滿足音樂愛好者深入了解音樂風格的渴望。」

曾任音樂雜誌主編與金音獎評審、目前也是KKBOX客座主編的陳玠安也提到,「人工分類是協助大數據進化重要一環,藉著人工選出經典的樂曲風格,再讓機器學習,在推薦上就會越來越精準,這也是客座主編的重要價值之一。」

雖然透過機器學習,系統可以自動分類歌曲,讓使用者在各次類別中看到豐富、新穎的曲目。不過,都需要資料科學家、KKBOX編輯團隊以及外部專家的校準,因此,KKBOX請來專家(例如音樂製作人),針對不同的類別各選出上百首訓練教材(training data),讓系統學習從音訊的特徵、曲風,辨識歌曲類別。系統上線後,還會有編輯檢查,將分錯的歌曲回報為負向樣本,提升系統的正確性。也就是「同時運用科學與人腦」,才能讓系統愈學愈好。

KKBOX的資料科學家怎麼說

Q當資料科學家最大的樂趣在哪裡?

Ann Chen:看到自己設計的演算法,真的能夠改變使用者的行為,還可以符合公司的商業目標,是最有成就感的地方。而且公司允許我們有10%的時間可以自由探索資料,研究自己喜歡的題目。

Q在KKBOX當資料科學家,要很喜歡聽音樂嗎?

Ann Chen:在建製模型的階段,看的都是數據。但是系統建好之後,你要知道它好不好,只看系統的分數會沒有感覺,還是要用自己的耳朵、實際聽來確認,才能知道該怎麼回去改進系統。

Q演算法的推薦有一天會取代人力嗎?

林華:我不認為人力會消失,只是說機器學習得愈好。未來人工參與的比例會下降,工作內容也會改變,把心力用來幫助模型變得更好。另外,編輯推薦的歌單,是用不同的角度幫助使用者拓展視野。

林華(KKBOX產品開發中心副總經理)
Ann Chen(研發工程師,台灣大學資訊管理研究所博士)

資料來源:2016-10-14 18:15 經理人 Web

採訪‧撰文 張玉琦

發表迴響