TRƯỜNG ĐẠI HỌC SAO ĐỎ - CƠ SỞ GIÁO DỤC ĐẠI HỌC THEO ĐỊNH HƯỚNG ỨNG DỤNG

CHẤT LƯỢNG TOÀN DIỆN - HỢP TÁC SÂU RỘNG - PHÁT TRIỂN BỀN VỮNG

Thứ năm - 29/09/2016 08:06
  •  

Nghiên cứu và ứng dụng kỹ thuật SEO đưa website lên top đầu trang tìm kiếm

1. Tổng quan về SEO
SEO (Search Engine Optimization): là quá trình tối ưu hóa website để cho nó trở lên thân thiện với các máy các chủ tìm kiếm như Google, Bing,… Mục tiêu của SEO là đưa website lên trang 1 Google với các từ khóa (keyword) mong muốn.
Quy trình SEO website:
  1. Nghiên cứu thị trường và lựa chọn từ khóa:
    • Xác lập mục tiêu kinh doanh: SEO chỉ là công cụ nhằm đạt mục tiêu kinh doanh.
    • Tìm hiểu thị trường: đang có những xu hướng gì, những cơ hội nào?
    • Nghiên cứu đối thủ: đang làm gì, SEO từ khóa nào, chiến lược SEO?
    • Nghiên cứu từ khóa: Khách hàng tìm kiếm gì trên Google, chọn từ khóa nào?
  2. Tối ưu trên website (on-site & on-page): Tối ưu tổng thể website: cấu trúc, sitemap. Các yếu tố bên trong từng trang web.
  3. Tối ưu bên ngoài website (off-site & off-page)
    • Xây dựng liên kết bên trong website.
    • Các liên kết với thế giới bên ngoài.
    • Social Links – Liên kết từ mạng xã hội.
    • Lưu lượng truy cập vào website.
  4. Đo lường, đánh giá và điều chỉnh: Đo lường hiệu quả kinh doanh, lượng truy cập tăng hay giảm, thứ hạng từ khóa trên Google, xếp hạng alexa, số lượng liên kết, nguồn đặt liên kết, xu hướng từ khóa, đối thủ có các thay đổi gì.. từ đó sẽ đưa ra những điều chỉnh cho phù hợp.
s1
Hình 1. Quy trình SEO website
2. Máy tìm kiếm
Các máy tìm kiếm thực hiện các công việc:
Dò quét: Quá trình máy tìm kiếm đi tìm những nội dung mới. Họ sử dụng những phần mềm có thể tự động ghé thăm các website và lần theo liên kết trên các trang web để tìm ra những nội dung khác.
Xây dựng cơ sở dữ liệu: Các máy tìm kiếm copy nội dung của các trang web mà chúng đã ghé thăm. Dữ liệu này được lưu trữ trên rất nhiều máy tính trong các trung tâm dữ liệu (data center) ở khắp nơi trên thế giới.
Xếp hạng: Đây là công việc mà các SEO quan tâm nhất. Khi một người tìm kiếm online, các cỗ máy này cần một thuật toán để đánh giá trang web nhằm xác định trang web nào liên quan nhất, và từ đó tính ra thứ hạng của trang web đó trên bảng kết quả.
a. Bọ tìm kiếm
Máy tìm kiếm thực hiện dò quét website nhằm mục đích tìm ra nội dung mới
nhờ sử dụng những phần mềm hiện đại có thể thu thập thông tin trên Internet. Những chương trình này thường được gọi là bọ tìm kiếm (Spider, robot). Với quy mô ngày càng mở rộng của mạng Internet, công việc này ngày càng tiêu tốn nhiều tài nguyên. Do đó, máy tìm kiếm sử dụng các thuật toán để quyết định xem trang web nào sẽ được dò quét, bao lâu sẽ dò quét, và độ sâu dò quét. Điều này cho phép họ tận dụng tài nguyên của mình một cách hiệu quả nhất có thể.
Một khi bọ tìm kiếm ghé thăm trang web, đầu tiên chúng sẽ tìm đến file robots.txt, đây cũng chính là bảng nội quy của trang web và sẽ chỉ ra những trang nào (nếu có) mà bọ tìm kiếm không được dò quét.
Giả sử rằng con bọ không bị chặn theo cách này, nó sẽ bắt đầu dò quét tất cả các trang web trên website. Dọc đường đi, nó sẽ lưu lại tất cả các địa chỉ tên miền vào trong một danh sách để sử dụng cho những lần dò quét sau.
* Những khó khăn cho bọ tìm kiếm
Website ngày nay sử dụng nhiều công nghệ khác nhau để nâng cao chất lượng đồng thời mang lại trải nghiệm tốt hơn cho người dùng. Tuy nhiên một số công nghệ lại gây khó khăn cho bọ tìm kiếm. Cụ thể là:
  • Javascript
  • AJAX
  • Flash
  • Hình ảnh
  • Video
b. Cơ chế tìm kiếm
Khi một người dùng tìm kiếm với một từ khóa, thực tế họ không tìm kiếm trên thế giới web. Họ đang tìm kiếm trên cơ sở dữ liệu của các máy tìm kiếm (web index). Các máy tìm kiếm sẽ vào cơ sở dữ liệu của mình và lấy ra các trang web cùng chủ đề. Cụ thể đó là những trang web có chứa từ tìm kiếm hoặc chứa những từ liên quan. Từ đây rút ra được, để tăng độ liên quan của trang web đến từ khóa chúng ta muốn hướng tới, chúng ta cần biết chèn từ khóa một cách hợp lý ở những vị trí quan trọng. Bên cạnh đó, cũng không được quên những từ liên quan. Có 3 cách máy chủ tìm kiếm xác định website liên quan đến thông tin tìm kiếm:
  • Từ khóa tìm kiếm
  • Tần suất xuất hiện, tần số nghịch của từ trong văn bản: Tần số xuất hiện là số lần xuất hiện của từ khóa trong văn bản. Tần số nghịch là tỷ lệ giữa mức độ phổ biến của một từ trên trang web đó với mức độ phổ trung bình trên mọi trang web. Về căn bản, những từ được sử dụng phổ biến hơn sẽ có trọng số thấp hơn.
  • Những từ liên quan (Co-occurrence)
3. Kỹ thuật tối ưu On-page
Tối ưu On-page là việc đảm bảo nội dung của website liên quan đến từ hoặc cụm từ khóa mà ta đang nhắm tới. Đây là phần rất quan trọng trong hầu hết các dự án SEO. Cụ thể, tối ưu On-page bao gồm những công việc chính sau đây:
  • Xác định chính xác những từ và cụm từ chúng ta sẽ nhắm tới.
  • Chọn trang web để tối ưu. Nếu chưa có phải lên kế hoạch lập website mới.
  • Viết nội dung hướng đến những từ và cụm từ này.
  • Tối ưu tất cả các thành phần trên trang để chúng chứa những từ và cụm từ này.
Tối ưu On-page là cần thiết nhưng vẫn chưa đủ để có một thứ hạng cao. Đầu tiên phải quan tâm đến chất lượng nội dung. Nội dung phải thật chất lượng và hữu ích, làm cho người dùng cảm thấy thỏa mãn khi tìm đến website. Tối ưu On-page tập trung vào các từ khóa. Ngoài ra còn ảnh hưởng bởi yếu tố tốc độ truy cập site. Để tối ưu, nên đặt các từ khóa trong:
  • Thẻ tiêu đề (Title)
  • Thẻ meta (description, keywords)
  • Đường dẫn URL
  • Heading (H1, H2…)
  • Bài viết
  • Hình ảnh (đặt trong phần mô tả, tên hình ảnh, chú thích…)
* Những lỗi khi tối ưu OnPage
  • Tối ưu quá đà
  • Nhồi nhét từ khóa
  • Trùng lặp nội dung
  • Sao chép nội dung mẫu
  • Tạo ra 2 nội dung khác nhau, một cho Google, một cho người dùng
  • Ẩn chữ
a. Nghiên cứu và lựa chọn từ khóa
Từ khoá là những cụm từ mà người dùng sử dụng để tìm kiếm sản phẩm/dịch vụ của nhà cung cấp trên Google.
  • Bước 1: Xác định khách hàng của website là Ai?
  • Bước 2: Liệt kê các từ khóa mà khách hàng có thể dùng để tìm kiếm.
  • Bước 3: Kiểm tra số lượng tìm kiếm và mức độ khó để đưa lên trang 1 Google.
Để nghiên cứu, đánh giá từ khóa, chúng ta có thể sử dụng công cụ Google Keywords Planner. Ngoài ra chúng ta cần chú ý đến mật độ từ khóa trong trang web (từ 2%-3%). Có thể kiểm tra mật độ từ khóa thông qua công cụ SEOQuake.
b. Tối ưu đường dẫn URL
Mọi đường dẫn URL đều bao gồm ít nhất 4 phần: Giao thức (HTTP), Subdomain (www, mp3…), tên miền (domain), tên miền cấp cao nhất - Top Level Domain (TLD) (.com, .org, …). Ngoài ra còn có những thành phần khác như tên thư mục, tên file… Để tối ưu đường dẫn chúng ta cần lưu ý sao cho đường dẫn:
  • Phải duy nhất;
  • Càng ngắn càng tốt;
  • Có chứa từ khóa;
  • Các từ trong URL nên được phân cách với nhau bởi dấu gạch nối.
c. Trùng lặp nội dung và cách khắc phục
Trùng lặp nội dung là điều thường gặp ở các website. Trùng lặp nội dung xảy ra khi 2 trang web khác nhau có nội dung giống nhau. Thông thường, trùng lặp nội dung là do vô tình và gây ra bởi hệ thống quản trị nội dung (CMS) hoặc máy chủ hosting. Tuy vậy, cũng có những trường hợp người chủ web cố tình tạo ra những nội dung trùng lặp và điều này sẽ ảnh hưởng xấu đến thứ hạng website.
- Trùng lặp ở trang chủ: Đây là loại trùng lặp nội dung mà rất nhiều website mắc phải. Đó là khi trang chủ website có thể được truy cập từ nhiều hơn một địa chỉ URL. Cách khắc phục là thiết lập redirect ở server hosting để đảm bảo sẽ chỉ có một trang chủ duy nhất được trả về. Cách cấu hình cụ thể còn phụ thuộc vào loại server sử dụng. Chúng ta có thể liên hệ nhà cung cấp dịch vụ hosting để có câu trả lời thỏa đáng hoặc là thiết lập địa chỉ ưu tiên trong Google Webmaster Tools.
- Subdomains, HTTPS và Relative Linking: Việc sử dụng subdomains nói chung không được khuyến khích vì không thân thiện trong SEO. Tuy nhiên, đôi khi bắt buộc phải có vì yêu cầu hoạt động của doanh nghiệp. Một trong những vấn đề mà subdomain có thể gây ra là việc trùng lặp nội dung. Các trường hợp gây ra trùng lặp nội dung: Sử dụng liên kết tương đối cùng với subdomain (trùng lặp giữa subdomain và domain chính). Sử dụng liên kết tương đối cùng với https (trùng lặp giữa phiên bản http và https). Cách khắc phục: khi xây dựng các liên kết nội bộ, chỉ sử dụng đường dẫn tương đối thay vì đường dẫn tuyệt đối.
- Trang Tag/Thư mục: Với các blog, việc sử dụng tag và category có thể gây ra trùng lặp nội dung khi một trang tag/category có nội dung giống với một/nhiều trang tag/category khác. Giải pháp là sử dụng noindex, nofollow cho tất cả các trang tag trang categories.
- Phiên bản dành cho máy in: Đây là tình huống trùng lặp nội dung khá phổ biến nhưng ít người để ý. Chức năng in sẽ tạo ra một địa chỉ URL mới có nội dung gần giống với trang web chính. Giải pháp là đặt thẻ rel=canonical vào trang dành cho việc in và trỏ nó về trang chính. Ví dụ: <link rel="canonical" href="http://www.seomoz.org/blog" />.
- Phiên bản di động: Điều tương tự cũng có thể xảy ra với phiên bản mobile của trang web (phiên bản dành cho các thiết bị di động như smartphone, máy tính bảng). Nếu nội dung giống nhau trong khi địa chỉ URL khác nhau, máy tìm kiếm sẽ bối rối không biết đâu là địa chỉ tốt nhất để cung cấp cho người dùng. Giải pháp hoàn hảo nhất là sử dụng duy nhất một địa chỉ URL, và tận dụng tính năng tự động phát hiện trình duyệt (browser identifiers) để trả về những phiên bản web khác nhau với các phong cách CSS khác nhau, tùy thuộc vào thiết bị của người dùng.
3. Kỹ thuật điều khiển hoạt động của bọ tìm kiếm
a. Chặn bọ tìm kiếm
Khi bọ tìm kiếm tìm đến website, chúng ta có quyền điều khiển hoạt động của chúng. Trên website có những nội dung chưa đầy đủ hoặc nội dung riêng tư mà chúng ta không muốn người khác biết đến. Chúng ta có thể chặn không cho bọ tìm kiếm tìm đến những nội dung đó thông qua:
  • File Robots.txt: Được đặt trong thư mục gốc, dùng để chặn bọ tìm kiếm truy cập vào một hoặc nhiều trang web nào đó.
  • Thẻ Meta Robots: Đặt trong phần head của 1 trang web và điều khiển cách bọ tìm kiếm tương tác với nội dung cũng như cách hiển thị trang web trên kết quả tìm kiếm.
Dưới đây là những ưu, nhược điểm của 2 phương pháp kể trên:
Hoạt động File Robots.txt Thẻ Meta Robots
Ngăn chặn dò quét Không
Ngăn chặn lưu dữ
liệu
Ngăn hiển thị URL
lên kết quả tìm kiếm
Không
Gỡ bỏ nội dụng khỏi
cơ sở dữ liệu của
Google
Không
Quyền truy cấp Áp dụng với cả thư mục Không cần quyền truy cập vào thư mục gốc
b. Định hướng bọ tìm kiếm
Để định hướng bọ tìm kiếm tìm và đọc các trang web trong hệ thống website một cách nhanh chóng, chúng ta sử dụng sitemap. Sitemap (còn gọi là sơ đồ website) là một danh sách liệt kê các trang web trên website.
Có 2 loại sitemap:
  • Dành cho người dùng (có thể là trang web sitemap.html)
  • Dành cho robots: sitemap.xml (đặt ở thư mục gốc của website)
Cách tạo file sitemap.xml:
Bước 1: Vào địa chỉ: www.xml-sitemaps.com và nhập các thông tin
  • Starting URL: nhập địa chỉ trang chủ, ví dụ: http://saodo.edu.vn
  • Change frequency: Always hoặc Daily hoặc Weekly,..
  • Priority: Auto
  • Click Start.
Chờ cho đến khi chạy xong chúng ta sẽ nhận được 1 danh sách các file, tiếp theo click vào file sitemap.xml.
Bước 2: Sửa nội dung và upload sitemap.xml lên Server: Sử dụng Notepad để mở file sitemap.xml để chỉnh sửa:
  • Đặt các thông số Priority cho từng URL
  • Xóa bớt những URL không quan trọng.
  • Dùng FTP để upload file sitemap.xml lên host, đặt file ở thư mục gốc của website.
Chúng ta có thể đặt đường link tới file sitemap.xml ở cuối nội dung file robots.txt.
Bước 3: Đăng ký sitemap.xml với Google Webmaster Tool.
  • Nhập website và xác minh quyền sở hữu
  • Chọn menu: Tối ưu hóa -> Sơ đồ trang web
  • Chọn THÊM/KIỂM TRA SƠ ĐỒ TRANG WEB
  • Nhập tên file sitemap.xml và chọn Gửi sơ đồ trang web.
c. Mã trạng thái HTTP
Mã trạng thái chính là biển báo báo cho bọ tìm kiếm biết trang web có phục vụ nó hay không? Khi Googlebot, Bingbot… hoặc các máy tìm kiếm khác truy cập vào website, máy chủ web sẽ trả về một số thông tin, trong đó có mã trạng thái. Thông tin này cho bọ tìm kiếm biết nó có thể tiếp tục truy cập vào website hay không, nếu có thì xử lý nội dung trên website như thế nào. Những mã trạng thái phổ biến nhất:
  • 200: Mọi thứ đều ổn, bọ tìm kiếm có thể dò quét và lưu nội dung trang.
  • 301: Trang web đã được di chuyển vĩnh viễn tới vị trí mới. Bọ tìm kiếm cũng như người dùng sẽ được đưa tới trang web mới. Giá trị của các link mà hiện thời trỏ về trang web cũ cũng sẽ tự động chuyển sang cho trang web mới. Điều này sẽ rất có lợi cho thứ hạng cho trang web mới.
  • 302: Trang web được di chuyển tạm thời đến vị trí mới. Bọ tìm kiếm cũng như người dùng sẽ được đưa tới trang web mới. Máy tìm kiếm không cần gỡ bỏ trang web này khỏi CSDL, đồng thời giá trị của link vẫn được dành cho trang web cũ.
  • 404: Trang không có, không còn tồn tại hoặc không thể truy cập. Máy tìm kiếm sẽ xóa trang web khỏi CSDL và người dùng sẽ nhận được một trang 404 nếu truy cập vào trang web này.
  • 500: Có lỗi máy chủ, cả bọ tìm kiếm và người dùng đều không thể truy cập vào trang web.
  • 503: Trang web tạm thời không phục vụ. Người dùng và bọ tìm kiếm nên quay lại sau. Mã 503 rất hay được dùng trong giai đoạn bảo trì website.
Để kiểm tra mã trạng thái của một website, chúng ta có thể sử dụng các cách sau: 5. Kỹ thuật Backlink
Backlink là liên kết từ trang này sang trang khác. Một backlink được tạo bởi 2 phần:
  • Anchor text: (văn bản neo) là phần người dùng nhìn thấy.
  • URL: địa chỉ của trang đích, khi người dùng bấm vào Anchor text thì về trang này.
Phân loại:
  • Internal links: Là những liên kết trỏ tới trang trên cùng 1 website, là yếu tố giúp Search Engine biết được trang nào là trang quan trọng trong website. Internal links dùng để điều hướng người dùng và robot di chuyển giữa các trang trong website.
  • External Links: Là những liên kết trỏ tới hoặc từ các trang ở bên ngoài website.  Trong SEO, liên kết ngoài có giá trị hơn liên kết trong. Chúng ta cần chú ý đến liên kết đi ra (Outbound Links) và đi vào (Inbound Links). Mỗi liên kết dùng để truyền giá trị từ trang nguồn cho trang đích. Giá trị của liên kết phụ thuộc vào: độ uy tín của domain đặt liên kết (DA – Domain Authority), độ uy tín của trang web đặt liên kết (PA – Page Authority), sự tương quan về nội dung của 2 trang, số lượng liên kết đi ra khỏi trang đặt link,…
Phương pháp tạo backlink và tăng Pagerank:
  • Link Baiting (câu link): viết nội dung tốt, hấp dẫn, nhiều người khác sẽ copy.
  • Chia sẻ liên kết lên các mạng xã hội: Google+, Facebook, Twitter,..
  • Trao đổi liên kết với những website cùng lĩnh vực.
  • Bình luận, trả lời bài viết trên các blog, diễn đàn cùng lĩnh vực.
  • Xây dựng hệ thống website, vệ tinh là các blog hoặc website tên miền từ khóa.
Khi xây dựng liên kết, điều quan trọng là phải duy trì việc đặt liên kết đều đặn, tránh tăng quá nhanh, hoặc không có thêm liên kết trong thời gian dài.
Một số lưu ý sử dụng backlink:
  • Robot khó nhận diện được các liên kết được tạo bởi Javascript.
  • Robot không thể truy xuất liên kết trong flash.
  • Không đặt quá nhiều link đi ra trên 1 trang.
  • Đặt link lên từ khóa, tránh đặt lên từ chung chung.
  • Liên kết đặt ở bên trên có giá trị hơn liên kết đặt ở phía dưới trang web.
  • Liên kết trên trang có tiêu đề chứa từ khóa sẽ có giá trị hơn.
  • Liên kết đặt lên văn bản sẽ tốt hơn liên kết đặt lên hình ảnh (ALT)
 
 
 

Tác giả bài viết: GV. Phạm Văn Kiên

Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây