神秘的文字（2008）

出自KMU Wiki

在2008年5月7日 (三) 13:10由Norlan (對話 | 貢獻)所做的修訂版本

(差異) ←上一修訂 | 當前修訂 (差異) | 下一修訂→ (差異)

跳轉到: 導航, 搜索

2008 年 5 月 1 日「閱讀心理學」分組討論摘要。

第一組

成員列表

kmu web2.0 id : zzadjin, stramonium, norlan

討論摘要

我們已經擁有阿發文的辭典可以辨認阿發文的詞，但卻無法了解阿發文的意義。為了辨認出一篇阿發文的文章，我們必須要從找出詞開始。比如說soshewasconsideringinherownmind這樣的一連串字母所呈現出來的長句。

最短單詞辨識法
人腦認知歷程：
1. 首先我們從字母s開始，我們以找出最短單詞的為主要辨認方式，以上面那長句來說，字典裡s開頭最短有意義的詞為so。一但辨認出so之後便結束第一次的搜尋。下次的開始為s，這次開始便是s→sh→she，因為she為詞典中為最短有意義的詞。

2. 因為我們是考慮最短有意義的詞，當辨認出consider之後，ing便會被我們給省略。因此上面那長句則會被我們辨識成為如下的樣子：

so/she/was/consider/in/her/own/mind

運用最短字詞辨識的方法會遺漏掉許多的字母，針對了解通盤文章的意義解釋會有極大的誤差，估計正確率大約不會超過百分之三十。

最短單詞辨識法〈改良法〉
因為使用最短單詞辨識會有大量的遺漏字母，對於文章的了解幫助並不大，為了改善遺漏的字母我們針對一開始的辨識法有些許的改善法。再以butyoumightcatchabat當作例子。

人腦認知歷程：

同樣的我們使用上面提過的方式來辨認，會變成以下的情形：but/you/might/cat(ch)/a/bat。

改良方式：我們把遺漏的字母先往前與前面的詞結合，看能不能成為一個新詞，如果不行再向後尋找。如果真的都沒辦法與前後的詞相結合，

電腦程式程序：

(1) 先設定最短字串長度為 20 個字元，先將第一個暫存的 20 個字母當作第一階段的處理內容。

例如：以附件中第五大段中，therabbitholewentstr 會成為第一階段的處理內容。

(2) 將第一階段中從第一個字元由左至右逐一增加與資料庫(詞典，以下均以資料庫稱之)比對，當比對出最短(最簡單)單詞後即停止此階段作業。

例如：在 therabbitholewentstr 中，從 t 開始由左至右逐一增加比對可先找到最短單詞為 the，至此即停止第二階段作業。

(3) 當第二階段處理完畢後，將扣除以比對出的最短單詞字元，並從其後重新搜尋 20 個字元作為第三階段的處理內容。

例如：在 therabbitholewentstr 中，the 已經在第二階段被成功處理過即扣除這三個字元，從 r 往後暫存尚未處理的 20 個字元作為新的處理內容，即 rabbitholewentstraig。

(4) 重複 (1) 至 (3) 的處理程序直到所有同一段落中字元均處理完畢。

(5) 在新的段落中重複 (1) 至 (4) 的處理程序直到文章所有段落中字元均處理完畢。

特殊的處理設定：

1. 不區分大小寫。

2. 段落處理的部分將段落中所有文字視為一個最大長度字串，不以紙本上所呈現的行列方式作為一個段落處理。

例如：以附件中第七段而言，將 wellthought .... boutit 視為一完整的段落，從中進行上述 (1) 至 (3) 的處理。

3. 當處理過程中遭遇特殊標點符號例如引號或者括號的第一個符號時，將其所包含的字元獨立進行 (1) 至 (3) 處理直到所包含的字元均處理完畢。

例一：以附件中第六段而言，段落後段會遇到 'ORANGEMARMALADE'，則將引號中所包含的字元獨立處理。
例二：以附件中第七段而言，一開始就有一個引號開頭，則自動往後搜尋引號的結尾，將其中包含的 well 四個字元另外暫存並獨立處理。

4. 當在 (1) 的處理過程中遭遇字句段落符號如逗號、頓號、句號、分號等，即使搜尋未能滿足最短字串長度，仍停止向後繼續搜尋增加至 20 個字元。

例如：

第二組

成員列表

鄭立順、劉純瑜、陳維倫、廖奕翔、何恭年

討論摘要

我們有三種分詞的方法，分別為「找最短詞法」、「找最長詞法」、「類字典法」，以下分述之。

(一)找最短詞法

我們先假設「阿發文」字典本身是一本記錄了所有阿發文的字詞，也依照阿發文字母的順序先後排好，就像是英文字典一樣，A後面排列的是B，接著是C，直到Z。以presentlyshebeganagain.”Iwonderifishallfallrightthroughtheearth!為例說明：

1. 以每一段第一句的第一個字母開始查詢「阿發文」字典，以上面的文字為例，首先先查第一個字母”p”，在字典中p並不是一個字詞，因此加上第二個字母r，查詢”pr”，而”pr”也不是一個字詞，所以再加上第三個字母”e” 查詢”pre”。依照這樣的規則，直到可以在字典找到相同的字詞，當查詢”present”時，可以在字典中找到這個字詞，因此字串就在這裡分開，下一個字詞以＂l＂為字首。

2. 以＂l＂為字首，重覆基本的查詢方式，當我們增加字母到＂lys＂時，我們會發現＂lys＂後面可以加上其他字母，成為一個字詞。但是以＂lysh＂去查詢時便找不到這個字詞，此外字典裡的字詞是依照字母順序排列，因此不論＂lysh＂後面加上任何一個字詞，我們都無法在字典找到。所以我們便不再依照字串的順序找下去。我們改以回到在”present”後面加上＂ｌ＂來查詢字典。查詢”presentl”時，可以知道它也不是一個字詞，因此再加上”y”來查詢，在字典裡可以找到”presently”，因此就在這裡將字串分開。下一個字詞以”s”開始。

3. 依照同樣的方式可以找到接下來的字詞是”she/be/gan/a/gain”。

4. 所以這一句就是presently she be gan a gain.

5. 但這裡會遇到問題，遇到的問題是如果我們以最短的詞下去做分詞的動作
會有一些詞、字被我們拆開成短字詞連接再一起這會與原本詞所代表的意思
不同，例如上一句，我們就會把Began看成be / gan 就失去原來的意義。

6. 因此，我們使用的這個方法分詞，之後要了解詞義或是整段句子正確率可能不會太高。預估大約只會有三成左右

(二)找最長詞法

(三)類字典法

第三組

成員列表

（填寫於此處。）

討論摘要

（填寫於此處。）

第四組

成員列表

陳慶民、陳怡柔、李奇勳、莊佩伊

討論摘要

在查詢一個字之前，我們先要求使用者輸入整個單字的字母數，將整個單字分為短詞（1～3個字母）、中詞（4～9個字母）和長詞（10個字母以上），再使用類似電子辭典的方式，依照字母排列順序逐步查出單字。

例如 therewasnothingsoveryremarkableinthat，先用長詞判斷，則超過10字母以上沒有單字。故可判斷需用短詞或中詞。在用短詞的狀況下，則會區分出the這個詞，但後面的rewasnothingsoveryremarkableinthat則不論用短詞、中詞或長詞都無法判斷出新的單字，故應採用中詞來判斷，則可區分出there這個詞。再來句子變成wasnothingsoveryremarkableinthat，再一次判斷是短詞、中詞或長詞，則可辨識出was這個詞，依此方法逐步辨識整個句子。估計此可辨識出約80%~90%的詞。

取自"http://wiki.kmu.edu.tw/index.php/%E7%A5%9E%E7%A7%98%E7%9A%84%E6%96%87%E5%AD%97%EF%BC%882008%EF%BC%89"

神秘的文字（2008）

出自KMU Wiki

目錄

第一組

成員列表

討論摘要

電腦程式程序：

第二組

成員列表

討論摘要

第三組

成員列表

討論摘要

第四組

成員列表

討論摘要

檢視

個人工具

導航

搜索

工具箱