Tools

學術研究平台

 

DocuSky

 

建置者

杜協昌

工具簡介

DocuSky數位人文學術研究平台是一個符合人文學者研究需要,進行個人化材料整理與分析的網路平台。本平台由國立臺灣大學數位人文研究中心、資訊工程學系數位典藏與自動推論實驗室規劃,項潔教授主持,杜協昌博士設計開發。DocuSky 數位人文學術研究平台的研發成果來自於所有參與者的共同貢獻。

開放日期

2016

連結
doi

N/A

後續研發建議

目前,DocuSky 數位人文學術研究平台仍持續發展中,暫時僅能處理文字性文本,及在Firefox/Chrome上操作。歡迎共同參與研發

論文題目

N/A

 

建置者

周柳村

工具簡介


開放日期

2018

連結
論文題目

表格視覺化工具的共享模型

畢業年月

2018-07

 

建置者

莊宜蓁

工具簡介


開放日期

2019

連結

 

建置者

黃志揚

工具簡介


開放日期

2019

連結

 

建置者

賴思頻

工具簡介


開放日期

2019

連結
論文題目

以 DocuXML 格式實現多文本間的對讀

 

建置者

陳柔安、宋欣烜

工具簡介


開放日期

2019

連結

 

建置者

鄭宇軒

工具簡介


開放日期

2019

連結

 

建置者

方珮雯

工具簡介


開放日期

2019

連結

 

建置者

翁婉倩

工具簡介


開放日期

2019

連結
論文題目

中國家譜數位化工具之設計與實作

畢業年月

2019-12


文本轉換與標準化建庫

 

建置者

陳琤

工具簡介

本工具幫助使用者在docusky平台上建立個人文字資料庫的過程中,將 Excel 檔所指定詮釋資料 (metadata)附加於文本,以利進行後續分析。研究者制定了詮釋資料表單的資料綱要,作為詮釋資料與文本之間的媒介,讓研究者能夠使用試算表軟體來管理詮釋資料的內容,並且在有需要利用詮釋資料來對文字資料庫進行檢索分析時,能夠隨時將更新後的詮釋資料匯入文字資料庫,以豐富文本的內容,增加文本的可利用性。

開放日期

2017

連結
doi

N/A

後續研發建議

由於此schema的設計還是以能在個人文字資料庫平台DocuSky上面運作為主,對於DocuSky目前尚未支援的複雜階層標籤結構,概念上可以用相同的方法在schema當中填上完整的階層名稱(例如,若是文字庫當中的標籤內含等有關作者的詳細資訊,在schema當中能夠藉由「author/authorName」指定將作者名稱填入標籤中)。但是目前尚無法藉由實際測試,來檢驗此方法的實用性。另外還有對於圖片檔案的支援、與權威資料的連結,都是在個人文字資料庫的發展上可能需要面對的挑戰。

論文題目

對文本進行詮釋資料附加的研究與應用

畢業年月

2017-07

 

建置者

杜協昌

工具簡介

這個工具可以讓您指定UTF-8 編碼格式的文字檔,將它們輸出為本地端的 XML 檔,便於建構個人資料庫。 *純文字文本樣本(複製連結下載後解壓縮): 西遊記文字檔:https://docusky.digital.ntu.edu.tw/DocuSky/data-samples/西遊記-text-utf8.zip 紅樓夢文字檔:https://docusky.digital.ntu.edu.tw/DocuSky/data-samples/續紅樓夢-text-utf8.zip

開放日期

2016

連結

 

建置者

杜協昌

工具簡介

本工具協助使用者建立資料庫內的文獻集,資料來源為Excel(.xls, .xlsx)檔案或.csv格式的文本,可將儲存於表格資料的 metadata 轉成 DocuXml。

開放日期

2016

連結

 

建置者

曹又霖, 杜協昌

工具簡介

本工具可將 MARKUS 標記後的匯出檔(MARKUS file)轉換為 DocuSky 的建庫檔。

開放日期

2016

連結
論文題目

文本標記格式的轉換與應用

畢業年月

2016-06

 

建置者

謝博宇

工具簡介

本工具可處理從 Kanseki Repository 漢籍網站下載的文字檔案。

開放日期

2016

連結

 

建置者

謝博宇

工具簡介

本工具可處理從 Kanseki Repository 漢籍網站下載的文字檔案。

開放日期

2016

連結

 

建置者


工具簡介

本工具可上載DocuXML檔案至個人資料庫中(需登入DocuSky)

開放日期

2016

連結

 

建置者

杜協昌

工具簡介

此工具可讀入多份 ThdlExportXml 檔,讓使用者挑選其中的文獻集(可利用檔名篩選欲輸出的文件),並將這些文獻集彙整成單一檔案。 您也可以利用這份工具將文件中的段落(paragraphs,相當於 Markus 的 passages)轉換成獨立的文件。 樣本(複製網址下載後解壓縮): DrugsDB-Medical(徐源提供):https://docusky.digital.ntu.edu.tw/DocuSky/data/pickCorpusContentsTool/DrugsDB-Medical.zip THDL:https://docusky.digital.ntu.edu.tw/DocuSky/data/pickCorpusContentsTool/THDL.zip

開放日期

2017

連結

 

建置者

杜協昌

工具簡介

此工具可讀入一份 ThdlExportXml 檔,讓使用者指定要將哪些 metadata 欄位的值複製到其他欄位,然後輸出另一份 ThdlExportXml 檔。

開放日期

2017

連結

 

建置者

陳泓文

工具簡介

This project is aimed to create docuXML from a wiki page. Given wiki page URLs, we can generate a docuXML file using this project. All the testing and developement are based on Chinese wiki pages (zh.wikipedia.org) for now.

開放日期

2018

連結
後續研發建議

為107年數位人文導論的學期作業。 目前已完成,但仍需再修或再重構方能上線。


文本標記與編輯

 

建置者

黃家富

工具簡介

在小說這種文學體裁中,說話行為乃是最重要的角色活動,說話以及說話的參與者往往是促成小說情節發展的要素。因此若將小說中的說話資訊進行標註以後,再使用其他軟體來作呈現與分析,就能夠提供不同的視角來看待這個文本。本研究建立了一套小說對話標註方法,並據以開發出適合小說對話標註的系統,能夠提高效率並減少錯誤發生率,在標註完成後也提供多種資料格式的匯出,讓使用者能夠更容易進行文本後續的其他工作。利用這個工具,可以對文本中的人物對話進行標記,從而便利進行後續的分析。 由於小說對話分析標註的特殊性質,在此小說標註系統的開發中,特別針對功能和動線的實用性與便利性進行考量,並將此系統銜接於DocuSky平台,讓標註後的文本能夠利用DocuSky平台提供的各種工具來分析與呈現,以提高使用者對文本的掌握程度。

開放日期

2017

連結
doi

N/A

後續研發建議

1.利用自然語言處理技術,達到說話內容詮釋資料的預判;2.使用者在標註工作完成後,往往會需要將文本做其他應用,如何進一步將標註後的資訊做其他的應用與展示。3.如何讓使用者在誤操作後,可以藉由暫存檔原。

論文題目

小說對話標註系統研究與實作

畢業年月

2017-06

 

建置者

Hilde De Weerdt, 何浩洋

工具簡介

你可以使用 MARKUS ,為你上傳的中文檔案,自動標記人名、地名、年號及官名(日後亦可應用在其他語言)。你也可以自訂要標記的關鍵字。(MARKUS was developed as part of the project “Communication and Empire: Chinese Empires in Comparative Perspective,” funded by the European Research Council. Further development has been funded by DID, JISC and AHRC. Code licensed AGPL v3, docs and videos CC BY SA 4.0.)

開放日期

2014

連結
畢業年月

2013-06


文本探勘與分析

 

建置者

謝博宇

工具簡介

此工具能讀入數組純文字或XML格式的文件集和詞彙表,並計算文件中分類詞彙的統計資訊,統計結果能輸出成數種格式以供使用者進行進一步的分析。資料輸入部分除了使用本機端的檔案以外,也提供從DocuSky個人帳戶載入文件與詞彙表的功能。這個工具目前主要用於與德國馬克斯普朗克科學史研究所(Max Plank Institute for the History of Science)合作的中醫文獻研究,用以比對文獻間藥物詞彙的使用異同與變遷。

開放日期

2016

連結
doi

N/A

後續研發建議

N/A

論文題目

N/A

 

建置者

杜協昌

工具簡介

詞夾子是一個能夠從文本中,擷取特定類別詞彙的半自動方法。

連結

 

建置者

傅莉雯、陳慧先

工具簡介

此工具可讀入文本,並將其中敘述度量衡的文字,轉成大家較為熟悉的單位制度(清制、日制、公制、英制)。

連結

 

建置者

趙叡

工具簡介

本系統將“對讀”這樣的閱讀模式應用在《春秋》三傳上,讓使用者觀察三傳中因不同作者闡述相同事件的差異性,對同一件事情的描述可能相同或相左,相同的部分讓研究者得知正確性,不同的部分則讓研究者比較不同撰寫者想法之間的差異性。 除此之外,本系統利用了DocuSky個人文字資料庫的觀念,以DocuSky為系統平台,除了《春秋》三傳之外,使用者可使用自己所收藏的文本進行對讀研究,並提供利於閱讀與分析的使用者介面以及全文檢索等工具輔助使用者研究。

開放日期

2017

連結
doi

10.6681/NTURCDH.DB_CRSC/Service

論文題目

文本對讀系統—以《春秋》三傳為例

畢業年月

2017-06

 

建置者

謝博宇

工具簡介

本工具可將文本視為純文字來統計詞彙(n-gram)頻率,現在也可以對文本中的標記進行分析。 註:輸出的詞彙列表,可利用csv to exel將其轉換成特定格式的表格,方便轉接其他 graph visualization tools。

開放日期

2017

連結

 

建置者

謝博宇

工具簡介

這個工具可對資料庫中的文獻集進行字頻統計,並將結果排比列出。

開放日期

2017

連結

視覺化與GIS

 

建置者

高欣愷

工具簡介


開放日期

2013

連結
論文題目

歷史文件自動地名標註 : 以《清實錄》為例

畢業年月

2013-06

 

建置者

林農堯

工具簡介

這是一個在Quantum GIS(簡稱QGIS)中使用網路上公開地圖的工具。為降低使用及安裝門檻,此工具不需安裝,僅需在QGIS的WMS圖層中加入主機網址即可使用各種地圖。 使用方式如同QGIS之WMS圖層,而且速度更快、錯誤更少。僅需設定一次,之後此工具的地圖或程式更新,自動套用不須進行任何更新程序。目前可適用在任何作業系統上的QGIS 1.5至QGIS 2.X版本。 支援地圖的種類為臺灣地圖、中國地圖及世界地圖。地圖種類包括一般街道地圖、地形圖、衛星影像及中國與臺灣歷史地圖。 本工具僅提供地圖資料之位置運算之服務,QGIS中顯示網路公開地圖的所有權及使用規範請遵循及參照地圖提供者。 希望藉著免費且功能完整的QGIS,加上豐富的參考地圖,增進GIS的親近性,讓一般人都有能力學習及使用GIS工具產生自己的地圖、詮譯自己的觀點及想法。

開放日期

2013

連結

 

建置者

林農堯

工具簡介

這個工具是用來展示在 DocuSky 上,可以整合文本與地理資訊。文本需經過 Markus 進行標記, 且標記後的地理名詞需具有 placename_id(如此工具才能取得對應的地理坐標資訊)。 經 Markus 標記後的輸出檔,還需透過工具轉換成建庫檔,上載建庫後才能被此工具所取用。

開放日期

2016

連結

 

建置者

林農堯

工具簡介

這是一個支援 DocuSky 的 GIS 工具,可以將 Geoport 的資料呈現在地圖上、儲存篩選後的文本圖層, 也可以用 CSV 格式上傳有坐標資訊的圖層一起使用。

開放日期

2016

連結

 

建置者

陳柏銓

工具簡介

統計圖組表格之互動視覺化工具,其具有以下四點特性: • 介面化選擇參數(關心維度、統計函數、細節參數),讓使用者高自有度地設計圖形。 • 使用者可以自由生成、修改、刪除圖表,以形成不同圖表組合。 • 圖表間存在直觀實用的互動設計,幫助使用者分析表格。 • 所有動態網頁系統,皆可以透過簡單的嵌入,使用本視覺化工具。(使用Javascript) 通過以上幾點,讓視覺化不再像個貼在牆上的靜態貼紙一般,而是使用者能夠在地自行設計與操作圖表,讓使用者對表格資料得以有更多的探勘,利用各種篩選、對比、統計,去發現資料中的秘密。網頁開發者也不必再去煩惱什麼樣的圖表適合使用者,只需要在網頁中預留區塊並匯入表格,就可以放手讓使用者去探索表格、玩互動圖表。

開放日期

2018

連結
論文題目

統計圖組表格之互動視覺化工具

畢業年月

2019-08


史料庫與分析系統

 

數位典藏系統

 

建置者

文化部

工具簡介

文化部國家文化資料庫主題網站

連結

 

建置者

文化部

工具簡介

文化部國家文化資料庫主題網站

連結

 

建置者

郭乃華

工具簡介

「會典」為中國古代官修政書,載明一朝的典章制度,以作為行政體系遵守之依據,可溯源於唐玄宗開元年間所撰之《唐六典》,發展至明代《明會典》始為大備。清代《大清會典》循先朝之體例,先後經歷康熙、雍正、乾隆、嘉慶、光緒五個時期的編修,除詳盡收錄清一代之各項法令規範外,亦以「例」、「則例」或「事例」的形式記載各項變革,是研究清朝典章制度不可或缺的重要文獻。 然而《大清會典》從乾隆時期採取「典例分離」的模式,將典章制度的規範和沿革分開,雖有效區隔國家運行的常規制度和具時效性的事例,卻也造成使用者在參照比對時閱讀上的困難。 本系統以乾隆時期所編纂之《欽定大清會典》及《欽定大清會典則》為對象,架設一典例交相查詢及閱讀之系統,讓使用者可以利用會典分類與則例主題、會典主題與則例主題、會典條目與則例條目等不同的特性進行閱讀,以期能幫助研究者對該文獻的性質,或對清代研究能有所助益。

開放日期

2014

連結
論文題目

中國古代法典及其事例之自動化整合——以乾隆朝《大清會典》為例

畢業年月

2014-06


THDL型系統

 

建置者

杜協昌

工具簡介

全文資料庫: 「台灣歷史數位圖書館」為集合台灣史一手史料之資料庫,提供全文檢索、詮釋資料(metadata)檢索等功能。本資料庫目前包含「淡新檔案」、「明清臺灣行政檔案」與「古契書」三文獻集,有全文資料逾十萬筆。 研究工具集: 研究工具集內提供三種不同類別的工具:參考工具,將研究者常查閱的工具書數位化,便於線上查索;檢索分析工具,針對THDL內的資料,提供進階的功能及更深入的觀察;關係探勘工具,利用自動方式重建文件之間的關係。

開放日期

2009

連結
doi

10.6681/NTURCDH.DB_THDL/Text

論文題目

台灣古契約文書全文資料庫的建置

畢業年月

1998-06

 

建置者

杜協昌

工具簡介

THDL系統之研究工具集,包括參考工具、檢索分析工具與關係探勘工具。

開放日期

2010

連結

 

建置者

文化部

工具簡介

國家文化資料庫主題網站

連結

 

建置者

杜協昌

工具簡介

「藝文類聚」文獻集總共有14,572條資料,全文總計約100萬字。該書修成於西元624年,為唐初弘文館學士歐陽詢主修,全書分有46個部、734個目。 「太平御覽」文獻集總共有65,633條資料,總字數約400萬字。其書由宋代翰林學士李昉主修,完成於西元984年,全書包含55個部、4,066個目、1,531個細目。 使用者可以從部、目的分類結構去瀏覽全文,也能輸入關鍵字進行全文檢索,還可以利用詮釋資料後分類進行年代、出處、作者的篩選,或是從部目、小目去觀察資料的分層結構,進一步找到想要的資料。 兩個文獻集的資料亦已經過比對,在藝文類聚找到的條目,除了能看到同一本書內的相似條目,也能同時看到在太平御覽中的相似條目,方便使用者進行兩種文本的分析比較。

開放日期

2014

連結
doi

10.6681/NTURCDH.DB_LeijuYulan/Text

論文題目

數位人文視野下的知識分類觀察:兩部官修類書的比較分析

畢業年月

1998-06

 

建置者

鍾嘉軒

工具簡介

所謂「類書」,是按照「以類相從」的特殊方法所編纂出來的書籍。它將社會上常見書籍中的內容摘抄濃縮後,分門別類地加以重新排列,以便於閱讀和查找。與西方的百科全書不同的是,類書只羅列和主題相關的內容,而並不針對特定主題進行創造性的詮釋。 本系統之目的在於提供一個對比觀察與分析的數位環境,讓有志於類書的研究者能對中國古代類書的結構與內容、及其所反映的知識分類和思想轉變有更進一步的探索與了解。 目前系統中提供對應查詢的類書有以下兩部:《藝文類聚》與《太平御覽》。《藝文類聚》成書於唐代統治的第7年(西元624年),為唐初弘文館學士歐陽詢等主修,內容總計約100萬字;《太平御覽》成書於宋王朝建立之後第25年(西元984年),由宋初翰林學士李昉等主修,總計約400萬字。由於這兩部類書均為新王朝建立之初、集國家之力延攬人力物力編修完成的,規模龐大,體制完整,亦成為我們觀察類書及其背後知識世界的最佳文本。

開放日期

2013

連結
doi

doi:10.6681/NTURCDH.DB_LEISHU/Service

論文題目

類書知識分類變化之自動分析與討論 : 以《藝文類聚》與《太平御覽》為例

畢業年月

2013-06


文本應用系統

 

建置者

林農堯

工具簡介

《先秦諸子繫年》是中國歷史學家錢穆的重要作品之一,主要考證先秦諸子的生平事跡及其生卒年,藉以解決史料上的空闕及互歧性問題。錢穆以古本《竹書紀年》為基礎訂正《史記》之誤,初步整體性解決了戰國史編年缺乏可靠史料的問題。然而,《先秦諸子繫年》的書本形式,在閱讀與教學上有其使用難度,本工具希望透過文本的數位化處理,讓此研究成果更便於利用。《先秦諸子繫年》的論述基於人物與事件在時空中的緊密聯繫,交織的關係形塑文本的脈絡,本工具將這個複雜的文本脈絡、原書中的〈通表〉及〈索引〉,皆加以分析及視覺化,並整合網路資源,把文本與在線上搜尋得到的原始文獻作聯結,方便學者使用與參照。

開放日期

2017

連結
doi

10.6681/NTURCDH.DB_CSPTP/Text

後續研發建議

N/A

論文題目

N/A

 

建置者

趙叡

工具簡介

春秋三傳對讀系統收錄了《左傳》(春秋含在內)、《公羊傳》,《穀梁傳》這四分文本,並提供三傳之間的文本條目對應以及全文檢索的功能。

開放日期

2017

連結
doi

10.6681/NTURCDH.DB_CRSC/Service

後續研發建議

提供兩種非編年體文本對讀的解決方法。1. 以自訂標籤取代時間標籤對應:本論文第三章中有介紹本系統時間對應的想法,是以文本中的時間去做對應,會將相同時間的文本對應在一起,也可以說是將時間當作標籤來做對應。因此,若要對應非編年體的文本(沒有時間資訊),使用者可以自訂標籤取代文本中的時間標籤。 2.切換自選標籤:本論文所實作的對讀概念是以時間為基準,是因為時間對於其他詮釋資料來說,是非常值觀且資訊清楚的。使用者只須將時間資訊標注在標籤中,系統即可解析標籤做到事件對應。在使用者使用本系統時,讓使用者自己選定欲對應的標籤,不一定要以時間標籤來當作對應的依據,使用者可以自由的選定文本中含有的詮釋資料標籤,系統會依照使用者上傳時的文本順序並依照使用者選定的詮釋資料標籤做群集,也把此當作是對應的依據。

論文題目

文本對讀系統—以《春秋》三傳為例

畢業年月

2017-07

 

建置者

謝弘庭

工具簡介

《五行志》始於漢書,記錄歷代災異事件,其中對於自然災害的記載為現今災害史研究的重要材料。然而,《五行志》雖有大致承襲漢書的體例,在不同正史文本中格式卻不盡然相同,漢代五行學說對災害的歸類也不同於今日災害學。本工具希望透過文本的數位化處理,與時間軸、地圖的災害呈現與檢索,使其更便於利用。

開放日期

2017

連結
doi

N/A

後續研發建議

本研究使用了災害史文獻資料的〈五行志〉與〈本紀〉部份建立WXML格式與系統,但如同第三章所述,災害史料中歷史文獻的種類極多,特別是地方志中災異記錄一定程度上參考了〈五行志〉,格式較接近,在處理上相對於其他種類文獻容易,是可以延伸的方向。系統功能部份對於疑似相同災害的合併機制亦可更加細緻,目前只處理的時間地點災害種類完全一致的災害,對於同一災害散記於兩地志書的情形無法處理,將來若要延伸到地方志,這部分也有必要進行,以讓更多、更豐富的災害資訊能整合進入系統,提供研究者更加細緻的呈現。

論文題目

N/A

畢業年月

2017-06

 

建置者

郭秀萍

工具簡介

本系統以中文家譜為主要對象,提供使用者創建並可即時編修家譜文獻與人物紀錄、並可以簡便的方式紀錄人物間親屬關聯的介面,且在新增人物紀錄時同步畫出人物家族樹,以便瀏覽及編校。系統中之家譜資料可以Excel或本研究訂立之JPML(JiaPu Markup Language)格式轉出,JPML參考國內外之家譜或人物存儲格式、並引用中國歷代人物傳記資料庫之部分參考資料表,以期望後續之擴展性。

開放日期

2016

連結
論文題目

中文家譜數位化研究

畢業年月

2016-06

 

建置者

李鈺淳

工具簡介

本系統探討在1685~1898年代間出版的23本方志,針對職官與物產兩大類進行資料分析與整理。除了保留方志的原內容外,還會將內容中常見的資訊做歸納,進一步儲存為詮釋資料(metadata),讓資料的檢索方式更彈性,呈現的方式更多樣化。

開放日期

2012

連結
論文題目

鳥瞰臺灣方志:以物產、職官為初探對象

畢業年月

2012-06


演算法實作

 

建置者

宋欣烜

工具簡介

提出一相關文件的搜尋方法,計算文件內容彼此之間的相關度,去取代關鍵字的搜尋方式。利用《清實錄臺灣史資料專輯》的文件,找出《清實錄》內更多與臺灣有所關聯的文件。

開放日期

2017

連結
doi

N/A

後續研發建議

1.提升precision 2. 融合關鍵字搜尋 3.在不同文本進行Relevance Feedback的效果

論文題目

利用使用者回饋尋找相關條目-以《清實錄》中臺灣相關資料為例

畢業年月

2017-07

 

建置者

王景逸

工具簡介

設計與實作一自動化系統,分析文獻之引用與文獻對應之可能性,以建置文獻之間的引用關係連結。

開放日期

2017

連結
doi

N/A

後續研發建議

由自動化系統所建立的連結並不是完全正確或完全無缺漏的,也有部分例子是人工難以確認是否該建立連結者,這部分可以考慮使用回報功能,讓使用者提出建議來修改,使系統更加完善。

論文題目

文獻引用建置系統的設計與實作

畢業年月

2017-07

 

建置者

謝于琳

工具簡介

個人化服務推薦一直是各類推薦系統努力的主要方向,但是新聞在此方面起步卻晚了其他商品須多,根本的原因為新聞有著別於一般商品的特性。新聞的生命週期與一般文章相比生命極其短暫,還偶有突發事件,造成新聞內容易受到社會環境、流行影響,造成很難在事情猜測讀者的需求,且即便是在報導同一件事情,也會因為作者的觀點、立場不同進而影響讀者的接受、滿意度。實際日常生活上,使用者感興趣的主題也很容易受同儕、社會環境所影響,每一人的興趣或多或少都會受同溫層、全球流行的影響,因此融合社群關係以及使用者歷史紀錄的個人化推薦系統能推薦出面向更廣的內容,也更符合使用者的閱讀習慣。

開放日期

2017

連結
doi

N/A

後續研發建議

在推薦前要探討的是收集資料的過程,本研究將系統架在新創的平台上,因此對於使用者歷史紀錄的蒐集上未完備,未來再精進推薦演算法前,若能更有效的收集更多使用者的資訊,則更有利於發展更為優秀的推薦演算法。系統若有一個完善的環境可以在線上切換兩種推薦模式且不打擾使用者,則能有利於推薦演算法的開發。本研究雖然納入社群關係進行推薦的分析,但在社群關係中本研將所有關係一視同仁,但是現實並非如此,在社群關係中會有關係上的密疏之分,以一般讀者來說因為新聞的從眾現象,讀者確實會有興趣閱讀朋友間討論的話題,但也會優先考慮較為親近的朋友間的話題,因此透過越縝密的資料收集,則有機會分析出社群關係中的更深一層的關係,而不單只是二元關係,則更有利於後續的推薦分析。

論文題目

透過社群關係與個人行為進行新聞推薦

畢業年月

2017-07

 

建置者

陳凱勛

工具簡介

以旅遊遊記為例,本地理資訊系統工具提出了兩個Web GIS系統的設計,透過Web GIS系統的設計,希望能拉近地理資訊系統與電子文件之間的距離,讓使用者能藉由系統,發現不同於以往單純逐字閱讀所能看到的脈絡,開啟另一種看待文本的可能性。 其一為地名標記系統,利用事先建立的地名辭典對文本進行空間資料的抽取,透過介面的設計,列出被標記為空間詞彙其可能代表的實際地名列表,使用者可任意選擇這些地名以呈現於地圖上,最後並以路徑規劃或直線串連所有被標記的地名。 另一為地名概念圖繪製系統,利用資料庫中現有的地標名稱,可將清末至今的部分老舊地名或行政區域名稱作為關鍵詞彙,建立出含該詞彙之地標名稱所形成的地標集合,透過演算法繪製出其代表的區域範圍,以重現人們對於過去該地概念的關係圖。

連結
後續研發建議

1.授權:交通部運研所(IOT), 從數值中取的景點地點的對應, 應是購買教育版,作學術用途, 目前找不到凱勛申請的單子,如商業用途要另外購買 2.建議提供API

論文題目

自動化擷取地理資訊以結合電子文件與WebGIS : 以現代旅遊遊記為例

 

建置者

陳代穎

工具簡介

藉由既有的詞庫對文獻集斷詞,此時不在詞庫中的新詞會 被斷為小的詞素碎片,之後計算 n-gram 獲得候選新詞。接著利用候選新詞的詞頻、 Pointwise Mutual Information(PMI)、分歧亂度 3 個統計特徵進行篩選。最後利用 人工規則移除含有數字、介詞、停用詞的候選新詞,得到擷取的新詞。

開放日期

2019

連結
論文題目

新聞及社群媒體中的新詞擷取

畢業年月

2020-06


地址

  • 地址: 10617 台北市羅斯福路四段一號 德田館 303室
  • 聯絡信箱: xxxOOO@gmail.com
  • 網站: http://archimedes.csie.ntu.edu.tw/
  • 連絡電話: 02-1234-5678
© 2018 All Rights Reserved.