現(xiàn)在位置:主頁 > 國內(nèi) > EMNLP 2017賓夕法尼亞大學(xué):KnowYourNyms?一種語義關(guān)系改編游戲

EMNLP 2017賓夕法尼亞大學(xué):KnowYourNyms?一種語義關(guān)系改編游戲

作者:編輯 ? 時間:2018-07-20 ? 瀏覽:人次

你和“懂AI”之間,只差了一篇論文

很多讀者給芯君后臺留言,說看多了相對簡單的AI科普和AI方法論,想看點(diǎn)有深度、有厚度、有眼界……以及重口味的專業(yè)論文。

為此,在多位AI領(lǐng)域的專家學(xué)者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當(dāng)然有的論文我們看得抱頭痛哭。

同學(xué)們現(xiàn)在看不看得懂沒關(guān)系,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

讀芯術(shù)讀者論文交流群,請加小編微信號:zhizhizhuji。等你。

這是讀芯術(shù)解讀的第76篇論文

EMNLP 2017 System Demonstrations

KnowYourNyms?一種語義關(guān)系改編游戲

KnowYourNyms?A Game of Semantic Relationships Adaptation

賓夕法尼亞大學(xué)

University of Pennsylvania

【摘要】語義關(guān)系知識對于自然語言理解至關(guān)重要。我們介紹KnowYourNyms,一種用于學(xué)習(xí)語義關(guān)系的web網(wǎng)絡(luò)游戲。在為用戶提供有吸引力體驗(yàn)的同時,應(yīng)用程序可以收集大量可用于改進(jìn)語義關(guān)系分類器的數(shù)據(jù)。數(shù)據(jù)還很有廣度地告訴我們?nèi)藗內(nèi)绾尾煊X詞之間的關(guān)系,為心理學(xué)和語言學(xué)研究提供有用的見解。

1 引言

語義關(guān)系的知識可以幫助眾多需要從文本推斷意義的NLP任務(wù),例如文本分類、內(nèi)容分析和查詢回答。我們將“有目的的游戲”的方法(von Ahn and Dabbish,2004)應(yīng)用于發(fā)現(xiàn)詞之間語義關(guān)系的任務(wù)。我們的目標(biāo)是通過這種類型的眾包來收集大量準(zhǔn)確標(biāo)注的詞匯關(guān)系。與完全自動或手動關(guān)系識別過程相比,由于可以免費(fèi)獲取大量高質(zhì)量的數(shù)據(jù),游戲機(jī)制提供了幾個優(yōu)點(diǎn)。

我們創(chuàng)造了一個名為KnowYourNyms的簡單游戲??谔柺潜3帜愕拇竽X警覺。它要求玩家在短時間內(nèi)列出提示的單詞。隨著秒數(shù)的下降,他們可以輸入盡可能多的答案,如“什么是海鮮?”或“火山有哪些部分”或“與脂肪相對的是什么”的提示。表1顯示了我們的玩家為回應(yīng)這些問題提供的下義詞,別名和反義詞。他們的答案對于自然語言理解應(yīng)用的訓(xùn)練數(shù)據(jù)很有用,并且可能為心理語言學(xué)研究提供有用的視角。

可以去www.know-your-nyms.com去玩KnowYourNyms 。

海鮮的下義詞:魚類54,蝦53,龍蝦38,蟹36,蛤24,鮭魚17,牡蠣12,扇貝12,貝類10,貽貝(10),鱈魚(7),金槍魚(7),羅非魚(5),鯨魚(4),鱒魚(4),章魚(4),鯊魚(4),魷魚(3),蝦(3)(2),鯰魚(2),旗魚(2),鰻魚(2),壽司(2),低音(2),魷魚(2),繆斯(2)。

詞語建議一次:muss-,珍珠,suslhi,蝦,schrimp,海豹,hadsoxk,螃蟹,棕褐色,scampop,scalop,海草,海豚,fi-,seaww-,snapper,s-,pr-,鱸魚,湯,沙丁魚,mahi,herrin,mussells,tipica,tun-,lob-,sa-,osyter,crawdad,roe,swai-,cram-,pa-,魚子醬,看,鯉魚,oyste-,sw-,musse-。

火山熔巖:熔巖(32),巖石(12),巖漿(10),山(9),火山口(9),煙(7),噴發(fā)(7),灰(6),火(6)(4),熱(4),口(3),蒸汽(2),危險(2),粉塵(2),火山(2),錐體(2),核心(2),geodes(2)。

說過一次的:地殼,能源,山,熱,村,硫磺,山,火山口,喉嚨,pummice,天然氣,頂部,側(cè)面,窗臺,石頭,火花,motlen,法律,日本,開幕,土壤,頭,地球,金屬,op-,懸崖,cond-,cr-,pl-,流量,壓力,噴口,粘土,污染,沉淀物,邊緣

脂肪的反義詞:瘦(15),瘦(13),苗條(5),苗條(4),?。?),微?。?),合身(3),修剪(2),瘦(2)。

說過一次的:delgado,svelt,narrow,bare,attracive,anorexic,teeny,體重不足,bulemic,形狀,under-,wispy,健康,light,smal-,little。

表1 由KnowYourNyms?玩家提供的例子關(guān)系

2 相關(guān)工作

已經(jīng)開發(fā)了幾種具有目的的游戲(GWAP),用于收集語言學(xué)標(biāo)注來構(gòu)建資源并訓(xùn)練系統(tǒng)(Chamberlain et al, 2013)。Lafourcade(2007)和Fort等(2014年)開發(fā)了用法語定義語義關(guān)系和依賴關(guān)系的游戲。Chamberlain等人(2008)創(chuàng)建了短語偵探來注釋和驗(yàn)證共同參考。Jurgens和Navigli(2014)最近提出使用視頻游戲?qū)ordNet感覺鏈接到圖像并執(zhí)行詞義消歧。 KnowYourNyms收集英文單詞之間的高質(zhì)量語義關(guān)系,以增加Word-Net等資源的覆蓋面,并為Paraphrase數(shù)據(jù)庫分配一個分類結(jié)構(gòu)(Ganitkevitch et al,2013)。另外,它還為LexNET(Shwartz和Dan,2016)等訓(xùn)練關(guān)系檢測系統(tǒng)提供了豐富的數(shù)據(jù)。到目前為止,已經(jīng)對小型訓(xùn)練數(shù)據(jù)集進(jìn)行了訓(xùn)練(BLESS(Baroni and Lenci,2011)),EVA Lution(Santus et al, 2015),ROOT9(Santus等人,2016)和K&H + N(Necsulescu等人,2015))。

3 系統(tǒng)概述

KnowYourNyms模仿的是ESP游戲或Google Image Labeler這樣的GWAP,它使用基于人的計算來收集元數(shù)據(jù)來改進(jìn)圖像識別分類器(von Ahn and Dabbish,2004)。在高層次上,應(yīng)用很簡單。一旦用戶創(chuàng)建一個賬戶,她可以開始一輪游戲。對于每一輪,系統(tǒng)選擇一個特定單詞(稱為“基本單詞”),并要求用戶在設(shè)定的時限內(nèi)盡可能多地命名該單詞的語義關(guān)系對。在分配的時間到期后,這些命名對的記錄將存儲在我們的數(shù)據(jù)庫中,并作為可能的語義關(guān)系的數(shù)據(jù)點(diǎn)。然后,用戶可以看到她的評分性能的顯示,這主要是基于其他用戶給出的相同關(guān)系的數(shù)量。以這種方式,這個評分可以反映出“家庭挑戰(zhàn)賽”(Family Feud),這是一個受歡迎的游戲節(jié)目,激勵以與同齡人最相似的方式回答問題。評分屏幕還顯示了最常見的問題解答,以合適的方式分配。一旦完成,另一輪開始。這些回合是短暫的(5-20秒,取決于關(guān)系類型),這使得游戲在短時間內(nèi)很有趣,容易上手。

4 系統(tǒng)實(shí)現(xiàn)

4.1 架構(gòu)

Web應(yīng)用程序使用Django框架構(gòu)建,使用Python進(jìn)行所有后端和數(shù)據(jù)庫交互,并使用前端的標(biāo)準(zhǔn)Java,HTML和CSS(包括jQuery,d3.js和Bootstrap Java/CSS)。我們使用AWS Elastic Beanstalk,它將我們的Django Web應(yīng)用程序部署到AWS EC2服務(wù)器。該應(yīng)用程序具有對用戶體驗(yàn)至關(guān)重要的多個組件,分為三個主要視圖。

歡迎屏幕 該屏幕提供有關(guān)游戲的目的信息,什么是語義關(guān)系,如何玩,還有一些關(guān)于我們的團(tuán)隊信息。當(dāng)用戶登錄這個屏幕時,會顯示一些關(guān)于玩家的統(tǒng)計數(shù)據(jù),包括已完成的回合數(shù),總得分和每輪的平均得分。顯示四個復(fù)選框,一個用于每個可播放的語義關(guān)系類型(同義詞,反義詞,下義詞,局部關(guān)系詞)。這些允許用戶選擇要玩耍的關(guān)系。默認(rèn)是全部選中。

玩游戲 當(dāng)每一輪開始時,定時器立即開始。為了回答問題提示,用戶可以在文本形式中輸入盡可能多的語義關(guān)系。每個離散答案都被稱為輸入字。表單在按Tab或輸入時動態(tài)生成,因?yàn)樵谶@一輪中需要許多輸入單詞。在20秒結(jié)束時,輪次立即結(jié)束,用戶被指向評分頁。

得分頁 圖1顯示了一個玩家在一輪之后所看到的。此評分頁面顯示玩家的兩個項(xiàng)目。第一個是在一輪中所有輸入單詞的表格分解,將每個單詞映射到該單詞的分?jǐn)?shù)。它還包括總回合得分。第二個是顯示該問題的最佳答案的條形圖。在這里,用戶可以觀察到與整個人群相比,他們識別出和沒有識別出的關(guān)系。

圖1 此示例評分頁面顯示玩家的單詞的分?jǐn)?shù)以及最佳答案

圖2 KnowYourNyms的程序流程。圖的下半部分從用戶的角度描繪了應(yīng)用功能(前端)。該圖的上半部分顯示了系統(tǒng)后端的組件。請注意,“語義關(guān)系分類器”褪色,因?yàn)槲覀冊陔x線設(shè)置中對玩家的數(shù)據(jù)進(jìn)行了訓(xùn)練和測試(參見第6.2節(jié))。

4.2 基本詞選擇

表2 每種關(guān)系類型的基本詞數(shù)量

基礎(chǔ)詞是每輪問題的基礎(chǔ);它們是潛在的(X,Y)語義關(guān)系對中的“X”。良好的基詞對于好問題是至關(guān)重要的,因?yàn)椤叭驱坱riceratops”或一個“球體sphere”的許多部分不一定有很好的同義詞。為了解決這些問題,我們?yōu)榛締卧~構(gòu)建了四個單獨(dú)的詞匯列表,一個用于從WordNet提取的每個允許的語義關(guān)系類型。我們選擇WordNet中至少有一個同義詞或反義詞,或至少有三個下位詞或別名的詞匯。為了確保我們不向用戶詢問罕見的單詞,這樣會導(dǎo)致用戶停止玩游戲,我們只保留在Google n-gram語料庫中出現(xiàn)至少1,000,000次的單字和雙字。表2顯示了WordNet為每種類型保留的基本單詞數(shù)。最后,我們集成了一個“跳過”按鈕,允許用戶跳過他們無法想到任何良好關(guān)系的查詢的單詞。

4.3 得分

我們通過在每輪結(jié)束時給予他們一個分?jǐn)?shù)來鼓勵玩家。得分是基于給予相同基詞和關(guān)系類型的其他用戶命名的百分比。

最后,該分?jǐn)?shù)也可能通過WordNet獎金來增強(qiáng),這是一個簡單的布爾檢查,是否在WordNet中通過此特定關(guān)系鏈接詞對。每個單詞的總分是這些值的總和,按最終得分表中的降序排序。

4.4 數(shù)據(jù)可視化

為了使用戶能夠看到每一輪最通常的反應(yīng),評分頁中包含一個條形圖,顯示前5個響應(yīng)以及給予它們的以前用戶的百分比。計分的百分比計算在后端實(shí)現(xiàn)。在前端,我們使用數(shù)據(jù)可視化庫d3.js,以便動態(tài)創(chuàng)建一個條形圖,縮放到適合窗口的大小。這允許在移動設(shè)備上看到圖形,或者在用戶更改桌面窗口的大小時進(jìn)行動態(tài)調(diào)整大小。

5 設(shè)計決策

5.1 用戶識別

我們要求用戶創(chuàng)建一個帳戶。這一設(shè)計決策主要是出于質(zhì)量控制的考慮。由于我們不期望所有用戶能夠提供良好答案,因此我們能夠清除惡意用戶是很重要的,這樣使得我們可以收集具有足夠高質(zhì)量的數(shù)據(jù)用于研究目的。用戶識別的另一個好處是它允許不能多次呈現(xiàn)具有相同查詢的用戶,因?yàn)檫@可能會使數(shù)據(jù)偏離。

5.2 詞匯表選取

每個用戶以特定的方式遍歷基本單詞列表。與完全隨機(jī)選擇相比,這具有不重復(fù)單詞的優(yōu)點(diǎn),直到所有單詞用戶都玩過。從用戶體驗(yàn)的角度來看,幾輪過后給用戶呈現(xiàn)相同的單詞是不能接受的。此外,讓不同的用戶玩相同的單詞是重要的,因?yàn)檫@樣可以做到更好的評分和百分比可視化。最后,由于我們以更集中的方式收集較少的基本詞匯,所以這種遍歷有助于學(xué)習(xí)高信任關(guān)系。為了涵蓋更多的單詞,我們決定允許少量的隨機(jī)性,它包括從五個項(xiàng)目的整個詞匯列表中隨機(jī)抽取一個單詞。

6 評估

6.1 眾包途徑

為了評估我們的游戲,我們問了160名在亞馬遜土耳其機(jī)器人上玩了KnowYourNyms十輪的眾包工人。我們的目的是使用數(shù)據(jù)讓游戲成熟,以便普通用戶可以根據(jù)以前玩家建議的單詞來獲得分?jǐn)?shù)。雖然這些工人只被要求玩十個回合,但許多人還是打了三十四十甚至一百場比賽。從這些工作人員中,我們收到了超過15,000個用戶投入。表3列出了我們迄今收集的關(guān)聯(lián)事項(xiàng)。以下是我們的關(guān)系類型中最常用的單詞對的例子。同義詞包括馬馬,森林森林,森林樹,行走,電力,四面體,看景,頻繁,木本林和瘟疫。反義詞包括睡眠醒來,有限無限的,前綴后綴,期望不良,相似性差異,相似性不同,搭便車,不成熟,喚醒睡眠和無菌骯臟。名詞包括刀柄,刀刀,鏈條,樹林,書封,文字,冰水,月日,水族館魚和鏈條金屬。異名詞包括海鮮魚,海鮮蝦,海鮮龍蝦,睡眠深度,相似性,海鮮蟹,石膏巴黎,亞洲中國人,亞洲日本人和搭車拖車。粗體條目是WordNet中不存在的關(guān)系。

表3 在不同的置信水平下學(xué)習(xí)的關(guān)系的數(shù)量,其中置信度是由命名關(guān)系的用戶(n)的數(shù)量來衡量的。我們將這個與WordNet中的相同基數(shù)詞的關(guān)系數(shù)量進(jìn)行比較。

我們調(diào)查了群眾工作者對游戲的感受,以及他們是否會再玩。前30名人群的玩家是最先完的,他們的分?jǐn)?shù)很多都是空的(游戲依賴于以前的玩家)。那些工作人員的平均得分為3.9 / 5,經(jīng)驗(yàn)值為3.8 / 5。然而,我們的第二組人群中,已經(jīng)有了更多的輪次,這樣可以提高得分。這些工作人員的平均分?jǐn)?shù)為4.46 / 5,再次玩的打分打出了4.43 / 5。此外,許多第二輪工人留下評論,指出他們“喜歡這個上癮的游戲”,游戲“很有趣”,“讓你快速思考”,“真正喚醒大腦”,并提出有用的建議改進(jìn)。玩游戲的積極反應(yīng)(特別是積分變化越來越清晰),證明這個游戲可能會更大規(guī)模地運(yùn)行,并且可以從玩家那里免費(fèi)收集重要的關(guān)鍵詞數(shù)據(jù)。

6.2 分類器評估

為了演示如何將這個游戲用于收集語義關(guān)系分類器的訓(xùn)練數(shù)據(jù),我們使用我們的玩家的數(shù)據(jù)來訓(xùn)練和評估最先進(jìn)的語義關(guān)系分類器LexNET(Shwartz和Dagan,2016)。我們的數(shù)據(jù)集由至少五個用戶提出的8613個名詞,反義詞,同義詞對和6228個隨機(jī)字對組成。從這14,841對,我們提取了一組951對進(jìn)行測試,并使用剩余的4675對,其組成詞與測試集不與訓(xùn)練和驗(yàn)證重疊。分類器在測試集上實(shí)現(xiàn)了總體加權(quán)平均F-score為0.34。該實(shí)驗(yàn)的全部結(jié)果在表4中給出。

表4 在對KnowYourNyms收集的數(shù)據(jù)進(jìn)行訓(xùn)練和評估時,LexNET語義關(guān)系分類器的精確度,召回率和F分?jǐn)?shù)。

7 討論

我使這個游戲有趣的玩法之一是選擇容易讓人想到的答案的單詞和關(guān)系類型。盡管我們嘗試過濾從WordNet中獲取的詞匯集合是具有多個WordNet關(guān)系的高頻詞,但我們發(fā)現(xiàn)許多玩家被我們的一些問題所困擾。以下是大多數(shù)用戶按下“通過Pass”按鈕的問題示例:

?什么是地質(zhì)學(xué)?(71%通過)

?什么是保護(hù)程序?(70%)

?與受孕有什么相反?(67%)

?區(qū)別對比是什么?(67%)

?什么是激素?(67%)

?臭名昭著的另一個字是什么?(60%)

?什么是下沉?(56%)

?什么是大麥種類?(56%)

一些提示顯然比其他用戶更難回答。我們假設(shè)抽象詞(例如地質(zhì)學(xué),沉沒,溶解)比混淆詞更難提供關(guān)系。一個單詞的注釋難度的指標(biāo)是用戶選擇跳過的次數(shù):如果他們無法想到任何良好的關(guān)系,用戶可以選擇轉(zhuǎn)到下一輪。我們計算由Brysbaert等人(2014年)建立的數(shù)據(jù)集中的單詞難度之間的相關(guān)性被測量為跳過單詞的次數(shù)與被看到的次數(shù)之間的比例以及具體的分?jǐn)?shù)(以下簡稱“CONCRETE”),其中包含37,058個英文單詞和2,896個雙字表達(dá)式的評分。詞從按照低分詞(低值)到具有具體意義的詞(高值)的5分評分量表上排名。我們希望抽象的單詞比較具體的話難以處理,更頻繁地被用戶跳過。

我們對從KnowYourNyms提取的412個引理關(guān)系對執(zhí)行相關(guān)計算。從這些中,40對應(yīng)于不在CONCRETE中的特定術(shù)語和命名實(shí)體(例如,染色體,甲基,猶他州,墨西哥,病原學(xué),植物區(qū)系,馬里蘭州)(僅包括85%的注釋者已知的詞,并排除專有名稱)。我們打算使用CONCRETE中的存在作為識別對于注釋者來說太難的單詞的標(biāo)準(zhǔn),并且應(yīng)該被排除在我們的游戲之外。

對于剩余的372個單詞的Pearson相關(guān)結(jié)果表明在詞難度和具體性之間為-0.2007的負(fù)相關(guān)(p <0.001),證實(shí)了我們假設(shè)更多抽象詞更難處理。對于我們的人群中至少10次觀察到的CONCRETE 99個引理的修正值更高 0.3851(p <0.001)。

最后,我們打算根據(jù)(Vulic等人,2016)中提出的典型和逐步語義類別成員來分析收集的關(guān)系,使其對文本承載任務(wù)更有用。

8 結(jié)論和未來工作

KnowYourNyms?游戲化收集在現(xiàn)有資源中找不到的特定語義關(guān)系的單詞對的過程。在為用戶提供有趣的經(jīng)驗(yàn)的同時,我們的應(yīng)用程序可以收集大量可用于改進(jìn)語義關(guān)系分類器和內(nèi)容分析工具的數(shù)據(jù)。該應(yīng)用程序?yàn)檫M(jìn)一步開發(fā)提供了令人興奮的可能性。隨著玩家數(shù)量的增長,我們的詞匯關(guān)系數(shù)據(jù)集將不斷擴(kuò)大。這將為全面的應(yīng)用提供新的評估機(jī)會,并使我們對于人們?nèi)绾慰创Z言關(guān)系的理解感到濃厚。

9 軟件和數(shù)據(jù)

我們根據(jù)BSD開源許可證發(fā)布了我們游戲基礎(chǔ)的軟件。我們提供如何設(shè)置自己的游戲?qū)嵗恼f明,并用您自己的基本詞和語義關(guān)系類型填充它。該軟件可從https://github.com/rossmechanic/know_your_nyms/獲得。在我們初次測試游戲時收集的包含語義關(guān)系的文件也包含在存儲庫中。

論文下載鏈接:

http://www.aclweb.org/anthology/D/D17/D17-2007.pdf

留言 點(diǎn)贊 發(fā)個朋友圈

我們一起探討AI落地的最后一公里

轉(zhuǎn)載請保留原文鏈接:http://parkingblocks4less.com/a/guona/20180720/9523.html上一篇:上一篇:文廟所:多措并舉大力開展“一網(wǎng)通、一次辦”宣傳工作
下一篇:下一篇:沒有了