環境資源報告成果查詢系統

文字探勘(含全文檢索)軟體暨建置服務

中文摘要 本計畫主要工作包括以下四大項工作: 一、巨量全文檢索及文字探勘模組: 提供龍捲風知識檢索平臺與自然語意分析模組,並提供完整的API與SDK,並且符合開放式的產業標準介面。除了透過系統內建的 Adapter 來針對不同資料結構進行處理之外,底層提供.NET或JAVA的介面,可包裝為Web Service服務,以XML或JSON的格式進行資料交換。符合開放式的產業標準介面以達到其它系統的要求,可更快速地進行應用系統的串接與整合。 二、協助環保署整合巨量資料分析共享平臺: 透過設定方式或整合API,可直接連接資料庫、共享資料夾、遠端網頁或企業內部特殊儲存系統等。配合貴單位環境設定,將需要進行檢索處理的資料來源,納入本案的處理範圍之中,以進行單一資料源或跨資料源整合檢索。 三、助環保署訓練文字探勘分析模型,並建立環保署專業之語料庫透過環保署open data摘要資料,建立分類模型,並另外加上環保署公聽會、環保署新聞資料進一步萃取出環保署專業術語,建立黑白名單。 四、提供技術移轉,以利環保署整合應用提供客製化應用網頁,透過此客製化網頁提供部分檢索與語意分析功能,並辦理四場龍捲風知識檢索平臺與自然語意分析模組之教育訓練,以利環保署同仁建立索引資料及使用檢索資料能力,且能運用語意分析工具。
中文關鍵字 全文檢索、巨量資料、語意分析、文字探勘

基本資訊

專案計畫編號 EPA-104-L103-03-001 經費年度 104 計畫經費 2530 千元
專案開始日期 2015/07/29 專案結束日期 2015/10/11 專案主持人 楊立偉
主辦單位 監資處 承辦人 梁玉玲 執行單位 意藍資訊股份有限公司

成果下載

類型 檔名 檔案大小 說明
期末報告 公開版1224.pdf 11MB

Text mining (including full-text search) software and build service

英文摘要 The project consists of the following four main items of work: 1. Case studies of big data applications and text mining module: Provided Tornado international cases about big data analytic applications and natural semantic analysis module,And provides a complete API and SDK,And comply with open industry standard interface。In addition, through the system Adapter for different data structures, Provides .NET or JAVA interface and for the Web Service, XML or JSON-format data exchange. Comply with open industry standard interface to achieve the requirements of other systems, Series can be carried out more quickly Systems Integration. 2. Assist the integration of a huge amount of data analysis EPD sharing platform: Hold four Tornado industrial training, To facilitate the integration and EPA colleagues to establish the ability to interpret data, Incorporated into the processing scope of the case, in order to carry out a single data source or across data source integration retrieval. 3. To assist the EPA text mining model training, And the establishment professional corpus of EPD, And the establishment of a professional of Corpus EPA Environmental Protection Agency summary information through open data, And plus EPA public hearing, EPD news material further extracted jargon, Establish a black list and white list. 4. Provide technology transfer, For EPD Application Integration ELAND provides customization website, Through customization website, ELAND provides a part of retrieval and semantic analysis, And holds four employee training. For EPA colleagues to facilitate the indexing information and the ability to use information retrieval, And can use semantic analysis
英文關鍵字 big data, text mining, natural semantic analysis, text mining