Rice Programming Ground: 2011

2011年11月14日星期一

Java Spring 初學 - 教學資料彙整

標籤： Java

Spring Framework的官方說明文件：（這邊文件算是最齊全也最完整的）
http://www.springsource.org/tutorials

Javaworld@tw論壇的JSP/Servlet討論區：（有特定問題不解，這邊會比官方文件更好找答案）
http://www.javaworld.com.tw/jute/post/page?bid=6&sty=1&age=0

JavaBeat：（Spring Introduction and tutorials）
http://www.javabeat.net/articles/18-introduction-to-spring-mvc-web-framework-web-tier-1.html

推薦書籍：
1.Head First Servlet/JSP
http://www.tenlong.com.tw/items/9866840263?item_id=45367

2.Spring 2.0技術手冊
http://www.tenlong.com.tw/items/9861811060?item_id=34885

2011年8月16日星期二

這篇文章只是要把一些關於 Regular Expression 的資料收集起來方便以後查找～
畢竟是在.NET平台上面寫所以MSDN的資料當然不能放過：
MSND Regular Expression

而「規則運算式物件模型」一文中，最常用到的方法莫過於Split和Matches還有Groups，而這些在文章中都有範例可以參考。

當然正則表示式是不分國界的很多語言都對這個東西有支援Java也不例外在Java Gossip中也針對Regular Expression開了篇文章來說明。

還有這篇文章裡面有提到一些正規表示式的一些規則和簡單範例。

最後說到字串的處理...MSDN上面也有對於字串處理的一些建議：「在.NET Framework中使用字串的最佳作法」嗯....沒事要多逛逛MSDN。

------------------------------------------2011/11/1補充--------------------------------------------------
常用規則：

字元	描述
\	將下一個字元標記為一個特殊字元、或一個原義字元、或一個向後參照、或一個八進制轉義符。例如，「n」匹配字元「n」。「\n」匹配一個換行符。序列「\\」匹配「\」而「\(」則匹配「(」。
^	匹配輸入字串的開始位置。如果設定了RegExp物件的Multiline屬性，^也匹配「\n」或「\r」之後的位置。
$	匹配輸入字串的結束位置。如果設定了RegExp物件的Multiline屬性，$也匹配「\n」或「\r」之前的位置。
*	匹配前面的子運算式零次或多次。例如，zo能匹配「z」以及「zoo」。等價於{0,}。
+	匹配前面的子運算式一次或多次。例如，「zo+」能匹配「zo」以及「zoo」，但不能匹配「z」。+等價於{1,}。
?	匹配前面的子運算式零次或一次。例如，「do(es)?」可以匹配「does」或「does」中的「do」。?等價於{0,1}。
{n}	n是一個非負整數。匹配確定的n次。例如，「o{2}」不能匹配「Bob」中的「o」，但是能匹配「food」中的兩個o。
{n,}	n是一個非負整數。至少匹配n次。例如，「o{2,}」不能匹配「Bob」中的「o」，但能匹配「foooood」中的所有o。「o{1,}」等價於「o+」。「o{0,}」則等價於「o*」。
{n,m}	m和n均為非負整數，其中n<=m。最少匹配n次且最多匹配m次。例如，「o{1,3}」將匹配「fooooood」中的前三個o。「o{0,1}」等價於「o?」。請注意在逗號和兩個數之間不能有空格。
?	當該字元緊跟在任何一個其他限制符（*,+,?，{n}，{n,}，{n,m}）後面時，匹配模式是非貪婪的。非貪婪模式儘可能少的匹配所搜尋的字串，而預設的貪婪模式則儘可能多的匹配所搜尋的字串。例如，對於字串「oooo」，「o+?」將匹配單個「o」，而「o+」將匹配所有「o」。
.	匹配除「\n」之外的任何單個字元。要匹配包括「\n」在內的任何字元，請使用像「(.\|\n)」的模式。
(pattern)	匹配pattern並獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到，在VBScript中使用SubMatches集合，在JScript中則使用$0…$9屬性。要匹配圓括號字元，請使用「$」或「$」。
(?:pattern)	匹配pattern但不獲取匹配結果，也就是說這是一個非獲取匹配，不進行儲存供以後使用。這在使用或字元「(\|)」來組合一個模式的各個部分是很有用。例如「industr(?:y\|ies)」就是一個比「industry\|industries」更簡略的運算式。
(?=pattern)	正向肯定預查，在任何匹配pattern的字串開始處匹配尋找字串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以後使用。例如，「Windows(?=95\|98\|NT\|2000)」能匹配「Windows2000」中的「Windows」，但不能匹配「Windows3.1」中的「Windows」。預查不消耗字元，也就是說，在一個匹配發生後，在最後一次匹配之後立即開始下一次匹配的搜尋，而不是從包含預查的字元之後開始。
(?!pattern)	正向否定預查，在任何不匹配pattern的字串開始處匹配尋找字串。這是一個非獲取匹配，也就是說，該匹配不需要獲取供以後使用。例如「Windows(?!95\|98\|NT\|2000)」能匹配「Windows3.1」中的「Windows」，但不能匹配「Windows2000」中的「Windows」。預查不消耗字元，也就是說，在一個匹配發生後，在最後一次匹配之後立即開始下一次匹配的搜尋，而不是從包含預查的字元之後開始
(?<=pattern)	反向肯定預查，與正向肯定預查類擬，只是方向相反。例如，「(?<=95\|98\|NT\|2000)Windows」能匹配「2000Windows」中的「Windows」，但不能匹配「3.1Windows」中的「Windows」。
(?<!pattern)	反向否定預查，與正向否定預查類擬，只是方向相反。例如「(?<!95\|98\|NT\|2000)Windows」能匹配「3.1Windows」中的「Windows」，但不能匹配「2000Windows」中的「Windows」。
x\|y	匹配x或y。例如，「z\|food」能匹配「z」或「food」。「(z\|f)ood」則匹配「zood」或「food」。
[xyz]	字符集合。匹配所包含的任意一個字元。例如，「[abc]」可以匹配「plain」中的「a」。
[^xyz]	負值字符集合。匹配未包含的任意字元。例如，「[^abc]」可以匹配「plain」中的「p」。
[a-z]	字元範圍。匹配指定範圍內的任意字元。例如，「[a-z]」可以匹配「a」到「z」範圍內的任意小寫字母字元。
[^a-z]	負值字元範圍。匹配任何不在指定範圍內的任意字元。例如，「[^a-z]」可以匹配任何不在「a」到「z」範圍內的任意字元。
\b	匹配一個單詞邊界，也就是指單詞和空格間的位置。例如，「er\b」可以匹配「never」中的「er」，但不能匹配「verb」中的「er」。
\B	匹配非單詞邊界。「er\B」能匹配「verb」中的「er」，但不能匹配「never」中的「er」。
\cx	匹配由x指明的控制字元。例如，\cM匹配一個Control-M或Enter符。x的值必須為A-Z或a-z之一。否則，將c視為一個原義的「c」字元。
\d	匹配一個數位字元。等價於[0-9]。
\D	匹配一個非數位字元。等價於[^0-9]。
\f	匹配一個換頁符。等價於\x0c和\cL。
\n	匹配一個換行符。等價於\x0a和\cJ。
\r	匹配一個Enter符。等價於\x0d和\cM。
\s	匹配任何空白字元，包括空格、製表符、換頁符等等。等價於[\f\n\r\t\v]。
\S	匹配任何非空白字元。等價於[^\f\n\r\t\v]。
\t	匹配一個製表符。等價於\x09和\cI。
\v	匹配一個垂直製表符。等價於\x0b和\cK。
\w	匹配包括底線的任何單詞字元。等價於「[A-Za-z0-9_]」。
\W	匹配任何非單詞字元。等價於「[^A-Za-z0-9_]」。
\xn	匹配n，其中n為十六進制轉義值。十六進制轉義值必須為確定的兩個數位長。例如，「\x41」匹配「A」。「\x041」則等價於「\x04&1」。正則運算式中可以使用ASCII編碼。.
\*num*	匹配num，其中num是一個正整數。對所獲取的匹配的參照。例如，「(.)\1」匹配兩個連續的相同字元。
\n	標識一個八進制轉義值或一個向後參照。如果\n之前至少n個獲取的子運算式，則n為向後參照。否則，如果n為八進制數位（0-7），則n為一個八進制轉義值。
\nm	標識一個八進制轉義值或一個向後參照。如果\nm之前至少有nm個獲得子運算式，則nm為向後參照。如果\nm之前至少有n個獲取，則n為一個後跟文字m的向後參照。如果前面的條件都不滿足，若n和m均為八進制數位（0-7），則\nm將匹配八進制轉義值nm。
\*nml*	如果n為八進制數位（0-3），且m和l均為八進制數位（0-7），則匹配八進制轉義值nml。
\un	匹配n，其中n是一個用四個十六進制數位表示的Unicode字元。例如，\u00A9匹配版權符號（©）。

資料來源：http://zh.wikipedia.org/wiki/Regex
另外，Regex類別在建構式中可以指定參數：

成員名稱	說明
None	指定無選項設定。
IgnoreCase	指定區分大小寫的比對。
Multiline	多行模式，變更 ^ 和 $ 的意義以致它們分別在任何一行的開頭和結尾做比對，而不只是整個字串的開頭和結尾。
ExplicitCapture	指定唯一有效的擷取為明確命名的或編號的，格式為 (?…) 的群組。這允許未命名的括號充當非擷取群組，而避免運算式 (?:…) 的語法不便。
Compiled	指定規則運算式要編譯為組件，這將產生較快速的執行，但會增加啟動時間。在呼叫 CompileToAssembly 方法時，不應將這個值指派至Options 屬性。
Singleline	指定單行模式，變更點 (.) 的意義，使它符合一切字元 (而不是 \n 之外的一切字元)。
IgnorePatternWhitespace	從模式排除未逸出的泛空白字元 (White Space)，並啟用以 # 標記的註解。不過，IgnorePatternWhitespace 值不會影響或排除字元類別中的泛空白字元。
RightToLeft	指定搜尋將由右至左，而非由左至右。
ECMAScript	啟用運算式的 ECMAScript 相容行為，這個值只能結合 IgnoreCase、Multiline 和 Compiled 值使用，將這個值與任何其他值一起使用都將導致例外狀況。
CultureInvariant	指定忽略語言中的文化差異，如需詳細資訊，請參閱在 RegularExpressions 命名空間中執行不區分文化特性作業。

資料來源：http://msdn.microsoft.com/zh-tw/library/system.text.regularexpressions.regexoptions(v=VS.100).aspx

基本上有這兩張表格就可以滿足基本Regex的需求了～！

2011年7月27日星期三

使用TPL來處理影像 - 以對比強化為例

標籤： .Net, 影像處理

影像處理是很注重效率與正確性的，因此普遍都會建議使用平行計算，或是使用指標的方式來增加效能。在.NET Framework下使用C#這兩種方式都可以使用，只是若用System.Threading.Task類別下的方法對於未來的擴展以及程式碼的可閱讀性會有較佳的表現，畢竟M$提供這麼好的工具不用可惜，再說也不是用C/C++來開發...(不過他們也有平行處理的類別庫可以用)。底下的範例程式是影像強化中的對比強化，輸入的參數為欲處理的影像以及強化的程度。至於那個強化程度的計算與轉換可以參考其他網路上面的作法。會用到的命名空間：

using System;
using System.Drawing;
using System.Drawing.Imaging;
using System.Runtime.InteropServices;// 使用Marshal類別來配置Unmanaged記憶體。
using System.Threading.Tasks;// TPL

處理邏輯：

public Bitmap Contraster(Bitmap bmp, Int32 level)
{
     Double dlevel = Math.Sqrt((level % 10) + 1);

    Bitmap newbmp = new Bitmap(bmp.Width, bmp.Height);
    // orignal bitmap only for reading value, the clone one for writing new value.
    BitmapData bmpData = bmp.LockBits(new Rectangle(0, 0, bmp.Width, bmp.Height),
        ImageLockMode.ReadOnly, bmp.PixelFormat);
    BitmapData newData = newbmp.LockBits(new Rectangle(0, 0, newbmp.Width, newbmp.Height), ImageLockMode.WriteOnly, bmp.PixelFormat);

    Int32 Width = bmp.Width;
    Int32 Height = bmp.Height;

    Parallel.For(0, Height, delegate(Int32 height) {
          Parallel.For(0, Width, delegate(Int32 width) {
            Int32 Offset = height * bmpData.Stride + width * (bmpData.Stride / bmpData.Width);
            Double Red = Marshal.ReadByte(bmpData.Scan0, Offset + 2);
            Double Green = Marshal.ReadByte(bmpData.Scan0, Offset + 1);
            Double Blue = Marshal.ReadByte(bmpData.Scan0, Offset);

            Red = ((Red / 255.0 - 0.5) * dlevel + 0.5) * 255;
            Red = Red > 255 ? 255 : Red;
            Red = Red < 0 ? 0 : Red;
            Green = ((Green / 255.0 - 0.5) * dlevel + 0.5) * 255;
            Green = Green > 255 ? 255 : Green;
            Green = Green < 0 ? 0 : Green;
            Blue = ((Blue / 255.0 - 0.5) * dlevel + 0.5) * 255;
            Blue = Blue > 255 ? 255 : Blue;
            Blue = Blue < 0 ? 0 : Blue;
            Marshal.WriteByte(newData.Scan0, Offset + 2, (Byte)Red);
            Marshal.WriteByte(newData.Scan0, Offset + 1, (Byte)Green);
            Marshal.WriteByte(newData.Scan0, Offset, (Byte)Blue);
        });
    });
    bmp.UnlockBits(bmpData);
    newbmp.UnlockBits(newData);

    return newbmp;
}

以上～！

2011年6月16日星期四

Socket學習資源

標籤： .Net, Socket

這篇文章算是個備忘吧...把自己截至目前為止的學習資源都放在這邊供以後查用：

System.Net.Sockets.Socket Class，這是實做Berkeley的通訊實體，算是最基礎的類別。
System.Net.Sockets.TcpClient，提供TCP用戶端連線的類別。
System.Net.Sockets.TcpListener，提供TCP伺服器端Listen Port(或是說Request)的類別。
System.Net.Socket.UDPClient，提供UDP客戶端連線的類別。

SocketAsyncEventArgs類別...這提供了一個解決I/O Bound process的一個類別，能夠更有效的把資源做利用。

CodeProject上有人對此類別做了一個簡單的Demo，在這裡能夠看得到。
不過這東西在對岸似乎很多人都感興趣，有不少文章都是問如何使用這個類別來完成網路通訊的服務，像是這篇他有放入他的壓力測試結果。

以後找到會繼續補上來。

2011年6月10日星期五

Image Processing – Binarization

標籤： .Net, 影像處理

緒論：
影像處理是現在多媒體系統或影像監控系統是必備的功能與需求，而在進行諸多處理像是影像辨識等需求時，要對影像進行前置處理其中一樣就是二值化(二值化之前要對影像進行灰階的前置處理)，把影像分成黑或白借此把影像的邊界與形狀取出，剔除相對不重要的資訊。而對於影像處理初出茅廬的我來說這就是一個最好的研究課題。這個領域的知識已經有很深的發展，其中更有些演算法的歷史比我還老，也就是這篇的重點：Otsu演算法。（ps.這篇編排先把實驗結果拉到前面實屬特例，這是為了要讓讀著馬上比較兩種演算法的不同，但話說前頭這兩種方法沒有誰一定比較好）

實驗數據與分析：
原圖來源：Google
Modified Sauvola:

Otsu:

原圖：

相關研究：
參考文獻：吳乾彌, 許志豪, "影像二值化演算處理器之軟硬整合設計與實現", 台科大電子工程, 98年六月
這是我在處理影像二值化中最後決定要引用的方法的參考文獻，之前是用鼎鼎大名的Otsu來當作影像閥值的演算法，當初試過一些照片覺得還不錯，但缺點就是閥值的計算是以整張圖片來統計，因此若有區域或局部性的亮度與整體差距過大就會造成該區域整塊的細節消失，算是美中不足的地方。
Otsu: 統計整張影像的灰階值，並以此計算值算出以哪個灰階值做劃分可以讓兩群的灰階值的變異數相加為最小，就口語來說就是找出用哪個數值化劃分可以讓兩個群體的群內差距為最小，亦即兩群的差異最大。
為了解決Otsu的痛處就要使用區域可適應性的閥值選擇方法，讓每個區域選擇自己的閥值，因此就找上了Sauvola，這篇，或這篇都有談到這個方法，當然這個方法我有稍稍改了一下，讓他對一個Window內的像素值賦予一個閥值，而非每個像素都有一個閥值，這樣可以減少不少計算量，換回不少計算時間。（ps.但是區域可適應性閥值選擇方法因為不像全域性計算一次閥值就好，因此會有比較多的計算時間）

Ostu的演算法概略如下：
(ps.我不大會用 blogger 編輯數學式子，就將就點看吧...囧rz)
若灰階影像其像速分布為 [1,2,3...x] （註：1~x 表示灰階影像像素的數值，範圍從 0~255），
可以計算出不同灰階值其分布機率值Pi：
Pi = ni / N --- (1)
其中 ni 代表灰階值為 i 的個數，N = n1+n2+n3+...+nx 為所有灰階值個數的總和。而所有Pi的總和為1。
summation Pi = 1, i from 1 to x ---(2)
上述有提到二值化是為了找出閥值讓兩個群體之間的差異最大，群內的差異最小。這裡有兩個群體，G1與G2，G1的灰階值分布為[1,2,3...y]，G2的灰階值分布為[y+1,y+2,y+3,...x]，由此計算出個群集的機率分布W1,W2。
W1 = summation Pi, i from 1 to y ---(3)
W2 = summation Pi, i from m+1 to x ---(4)
接著計算個群集的平均值 M1,M2。
M1 = summation i * Pi, i from 1 to y ---(5)
M2 = summation i * Pi, i from y+1 to x ---(6)
然後就可以利用上述的式子求出個群集的變異數 K1,K2。
K1 = summation (i - M1) * (i - M1) * Pi, i from 1 to y
K2 = summation (i - M1) * (i - M1) * Pi, i from y+1 to x
要找到一個閥值可以讓兩個群集的變異數相加最小。

研究方法：
(ps.因為原始程式碼有點長，這邊僅列出關鍵的部份。)

Int32[] GrayNum = new Int32[256];// 用來記錄灰階值的矩陣，這邊假設已經都匯入完畢

#region 計算各灰階值出現的機率。
IEnumerator enumerator = GrayNum.GetEnumerator();
List<Double> Property = new List<Double>(256);

while (enumerator.MoveNext())
{
    Property.Add((Int32)enumerator.Current / TotalPixel);
}
#endregion

#region 計算累積分佈函數。
Double[] w0 = new Double[256];
w0[0] = Property[0];

for (Int32 num = 1; num < Property.Count; ++num)
{
     w0[num] = (w0[num - 1] + Property[num]);
}
#endregion

#region 區域變數的宣告。
Int32 OptimalOtsu = Int32.MinValue;// Otsu value
Double entropyvalue = Double.MaxValue;// 熵值最佳值(越小越好)。
Double currententropy = Double.MinValue;
Double category1 = Double.MinValue, category2 = Double.MinValue;// 存放一、二群的機率
Double mean1, mean2;// 第一、二群的加權平均數(期望值)。
Double Variance1, Variance2;// 第一、二群的變異數。
#endregion



#region 開始計算閥值

// 閥值設在端點作用不大...(所以範圍設在1~254之間)
for (Int32 threshold = 1; threshold <= 254; ++threshold)
{
    #region 以各灰階值為閥值來計算兩群體的變異數總和。
    // 避免分母為零。
    category1 = w0[threshold] < 1e-9 ? 1e-9 : w0[threshold];
    category2 = (1.0 - category1) < 1e-9 ? 1e-9 : (1.0 - category1);

    // 初始化區域變數。
    mean1 = mean2 = 0.0;
    Variance1 = Variance2 = 0.0;

    // 計算兩群的加權平均數(期望值)
    for (Int32 val = 0; val <= threshold; val++)
        mean1 += val * Property[val] / category1;
    for (Int32 val = threshold + 1; val <= 255; val++)
        mean2 += val * Property[val] / category2;

    // 計算兩群的變異數。
    for (Int32 val = 0; val <= threshold; val++)
        Variance1 += Math.Pow((val - mean1), 2) * Property[val];
    Variance1 /= category1;
    for (Int32 val = threshold + 1; val <= 255; val++)
        Variance2 += Math.Pow((val - mean2), 2) * Property[val];
    Variance2 /= category2;

    currententropy = Variance1 * category1 + Variance2 * category2;
    if (currententropy < entropyvalue)
    {
        entropyvalue = currententropy;
        OptimalOtsu = threshold;
     }
}
#endregion

結論：
使用 Otsu 的好處莫過於計算速度快，理解上面有比較容易，是實作二值化入門方法的不二人選！其實在大多數的情況之下利用Otsu就已經可以把很多灰階影像很好的二值化了，只是在一些極端條件下(ex.不均勻的光源)會導致二值化的效果不彰，也因此才會有後續很多不同的二值化方法衍生出來。

參考文獻：
1.Otsu
http://en.wikipedia.org/wiki/Otsu's_method
2.Sauvola (原始論文)
http://www.sciencedirect.com/science/article/pii/S0031320399000552
3.Sauvola
http://gamera.sourceforge.net/doc/html/binarization.html#sauvola-threshold

特別附註：2012-08-27補
這篇文章其實一開始po上來的時候沒有想要寫的太完整，結果現在想補完整一點就變成複習一次了，把之前看的資料又重新看了一遍實在有點累。

訂閱：意見 (Atom)

2011年11月14日 星期一

Java Spring 初學 - 教學資料彙整

2011年8月16日 星期二

正則表示式 Regular expression 資料蒐集

2011年7月27日 星期三