神秘的文字(2008)
出自KMU Wiki
在2008年5月7日 (三) 11:24所做的修訂版本 (編輯) Doyle9307058 (對話 | 貢獻) ←上一個 |
在2008年5月7日 (三) 11:33所做的修訂版本 (編輯) (撤銷) Windowside (對話 | 貢獻) 下一個→ |
||
第25行: | 第25行: | ||
=== 討論摘要<br> === | === 討論摘要<br> === | ||
- | + | 我們有三種分詞的方法,分別為「找最短詞法」、「找最長詞法」、「類字典法」,以下分述之。 | |
- | + | <br> | |
- | + | (一)找最短詞法 | |
+ | |||
+ | <br> 我們先假設「阿發文」字典本身是一本記錄了所有阿發文的字詞,也依照阿發文字母的順序先後排好,就像是英文字典一樣,A後面排列的是B,接著是C,直到Z。以presentlyshebeganagain.”Iwonderifishallfallrightthroughtheearth!為例說明: | ||
<br>1. 以每一段第一句的第一個字母開始查詢「阿發文」字典,以上面的文字為例,首先先查第一個字母”p”,在字典中p並不是一個字詞,因此加上第二個字母r,查詢”pr”, 而”pr”也不是一個字詞,所以再加上第三個字母”e” 查詢”pre”。依照這樣的規則,直到可以在字典找到相同的字詞,當查詢”present”時,可以在字典中找到這個字詞,因此字串就在這裡分開,下一個字詞以"l"為字首。<br> | <br>1. 以每一段第一句的第一個字母開始查詢「阿發文」字典,以上面的文字為例,首先先查第一個字母”p”,在字典中p並不是一個字詞,因此加上第二個字母r,查詢”pr”, 而”pr”也不是一個字詞,所以再加上第三個字母”e” 查詢”pre”。依照這樣的規則,直到可以在字典找到相同的字詞,當查詢”present”時,可以在字典中找到這個字詞,因此字串就在這裡分開,下一個字詞以"l"為字首。<br> | ||
+ | |||
+ | <br> | ||
2. 以"l"為字首,重覆基本的查詢方式,當我們增加字母到"lys"時,我們會發現"lys"後面可以加上其他字母,成為一個字詞。但是以"lysh"去查詢時便找不到這個字詞,此外字典裡的字詞是依照字母順序排列,因此不論"lysh"後面加上任何一個字詞,我們都無法在字典找到。所以我們便不再依照字串的順序找下去。我們改以回到在”present”後面加上"l"來查詢字典。查詢”presentl”時,可以知道它也不是一個字詞,因此再加上”y”來查詢,在字典裡可以找到”presently”,因此就在這裡將字串分開。下一個字詞以”s”開始。<br> | 2. 以"l"為字首,重覆基本的查詢方式,當我們增加字母到"lys"時,我們會發現"lys"後面可以加上其他字母,成為一個字詞。但是以"lysh"去查詢時便找不到這個字詞,此外字典裡的字詞是依照字母順序排列,因此不論"lysh"後面加上任何一個字詞,我們都無法在字典找到。所以我們便不再依照字串的順序找下去。我們改以回到在”present”後面加上"l"來查詢字典。查詢”presentl”時,可以知道它也不是一個字詞,因此再加上”y”來查詢,在字典裡可以找到”presently”,因此就在這裡將字串分開。下一個字詞以”s”開始。<br> | ||
+ | |||
+ | <br> | ||
3. 依照同樣的方式可以找到接下來的字詞是”she/be/gan/a/gain”。<br> | 3. 依照同樣的方式可以找到接下來的字詞是”she/be/gan/a/gain”。<br> | ||
+ | |||
+ | <br> | ||
4. 所以這一句就是presently she be gan a gain.<br> | 4. 所以這一句就是presently she be gan a gain.<br> | ||
- | 5. 但這裡會遇到問題,遇到的問題是如果我們以最短的詞下去做分詞的動作<br>會有一些詞、字被我們拆開成短字詞連接再一起這會與原本詞所代表的意思 <br>不同,例如上一句,我們就會把Began看成be / gan 就失去原來的意義。<br>6. 因此,我們使用的這個方法分詞,之後要了解詞義或是整段句子正確率可能不會太高。預估大約只會有三成左右<br> | + | <br> |
+ | |||
+ | 5. 但這裡會遇到問題,遇到的問題是如果我們以最短的詞下去做分詞的動作<br>會有一些詞、字被我們拆開成短字詞連接再一起這會與原本詞所代表的意思 <br>不同,例如上一句,我們就會把Began看成be / gan 就失去原來的意義。<br> | ||
+ | |||
+ | <br> | ||
+ | |||
+ | 6. 因此,我們使用的這個方法分詞,之後要了解詞義或是整段句子正確率可能不會太高。預估大約只會有三成左右<br> | ||
+ | |||
+ | <br>(二)找最長詞法 | ||
+ | |||
+ | <br>(三)類字典法 | ||
== 第三組<br> == | == 第三組<br> == |
在2008年5月7日 (三) 11:33所做的修訂版本
2008 年 5 月 1 日「閱讀心理學」分組討論摘要。
目錄 |
第一組
成員列表
kmu web2.0 id : zzadjin, stramonium, norlan
討論摘要
(填寫於此處。)
第二組
成員列表
鄭立順、劉純瑜、陳維倫、廖奕翔 、何恭年
討論摘要
我們有三種分詞的方法,分別為「找最短詞法」、「找最長詞法」、「類字典法」,以下分述之。
(一)找最短詞法
我們先假設「阿發文」字典本身是一本記錄了所有阿發文的字詞,也依照阿發文字母的順序先後排好,就像是英文字典一樣,A後面排列的是B,接著是C,直到Z。以presentlyshebeganagain.”Iwonderifishallfallrightthroughtheearth!為例說明:
1. 以每一段第一句的第一個字母開始查詢「阿發文」字典,以上面的文字為例,首先先查第一個字母”p”,在字典中p並不是一個字詞,因此加上第二個字母r,查詢”pr”, 而”pr”也不是一個字詞,所以再加上第三個字母”e” 查詢”pre”。依照這樣的規則,直到可以在字典找到相同的字詞,當查詢”present”時,可以在字典中找到這個字詞,因此字串就在這裡分開,下一個字詞以"l"為字首。
2. 以"l"為字首,重覆基本的查詢方式,當我們增加字母到"lys"時,我們會發現"lys"後面可以加上其他字母,成為一個字詞。但是以"lysh"去查詢時便找不到這個字詞,此外字典裡的字詞是依照字母順序排列,因此不論"lysh"後面加上任何一個字詞,我們都無法在字典找到。所以我們便不再依照字串的順序找下去。我們改以回到在”present”後面加上"l"來查詢字典。查詢”presentl”時,可以知道它也不是一個字詞,因此再加上”y”來查詢,在字典裡可以找到”presently”,因此就在這裡將字串分開。下一個字詞以”s”開始。
3. 依照同樣的方式可以找到接下來的字詞是”she/be/gan/a/gain”。
4. 所以這一句就是presently she be gan a gain.
5. 但這裡會遇到問題,遇到的問題是如果我們以最短的詞下去做分詞的動作
會有一些詞、字被我們拆開成短字詞連接再一起這會與原本詞所代表的意思
不同,例如上一句,我們就會把Began看成be / gan 就失去原來的意義。
6. 因此,我們使用的這個方法分詞,之後要了解詞義或是整段句子正確率可能不會太高。預估大約只會有三成左右
(二)找最長詞法
(三)類字典法
第三組
成員列表
(填寫於此處。)
討論摘要
(填寫於此處。)
第四組
成員列表
陳慶民、陳怡柔、李奇勳、莊佩伊
討論摘要
在查詢一個字之前,我們先要求使用者輸入整個單字的字母數,將整個單字分為短詞(1~3個字母)、中詞(4~9個字母)和長詞(10個字母以上),再使用類似電子辭典的方式,依照字母排列順序逐步查出單字。
例如 therewasnothingsoveryremarkableinthat,先用長詞判斷,則超過10字母以上沒有單字。故可判斷需用短詞或中詞。在用短詞的狀況下,則會區分出the這個詞,但後面的rewasnothingsoveryremarkableinthat則不論用短詞、中詞或長詞都無法判斷出新的單字,故應採用中詞來判斷,則可區分出there這個詞。再來句子變成wasnothingsoveryremarkableinthat,再一次判斷是短詞、中詞或長詞,則可辨識出was這個詞,依此方法逐步辨識整個句子。估計此可辨識出約80%~90%的詞。